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创新 ! 大 量 实际 课题 来 自发 表 的 SCI 文 章 ， 全 部 都 是 “ 真 枪 实弹 ”， 
不 杜撰 所 谓 “ 实 际 应 用 ”。 
国内 首部 与 SCI 文 章 紧 密 结 合 的 生物 信息 书籍 。 


ш 从 实际 课题 出 发 ， 提 出 解决 问题 的 思路 ， 结 合 原理 或 基础 知识 ， 但 更 偏 
重 解决 问题 的 框架 和 流程 ， 选 用 简单 易学 但 功能 强大 的 R 语 言 ， 把 讲解 
延伸 到 具体 程序 代码 ， 让 读者 百分之百 经 历 整个 课题 研究 过 程 。 
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Ш 由 多 名 R 领 域 专家 ( 均 为 一 线 科研 工作 者 ) 通过 互联 网 联手 写作 。 通 过 
前 期 网 上 调研 ， 了 解 并 在 书 中 突出 大 多 数 人 普遍 关心 而 又 难 寻 相 关 资 料 
的 问题 。 


ш 所 见 即 所 得 ， 学 到 的 知识 可 以 通过 简单 编程 ( 仅 用 代码 拷贝 粘贴 ) 加 以 
实现 ， 印 象 深 刻 ， 学 了 不 易 忘 。 提 出 三 板斧 学 习 法 ， 让 无 基础 的 人 也 能 
编程 。 


Ш ”作者 通过 QQ 群 直接 面向 读者 答疑 ， 并 提供 大 量 参考 资料 和 习题 答案 。 使 
用 正版 书籍 的 读者 ( 实名 制 ) 均 可 入 群 享受 最 好 的 服务 。 


Ш 既 不 罗列 基础 知识 凑 字 数 ， 也 不 使 用 光盘 ， 减 轻 读者 负担 又 保护 环境 。 


与 Bioconductor 
生物 信息 学 应 用 


主编 高 ш кайт н N 
ж 者 ЖА 杭 兴 宜 胡 朝 阳 
ERF A Я 


天 津 出 版 传媒 集团 
人 多 天津 科 技 翻 译 出 版 有 限 公 司 


图 书 在 版 编目 ( C 1 P ) 数据 


R 语 言 与 Bioconductor 生 物 信息 学 应 用 / Ш, ИКӘ, ЮЛ] 
主编 .一 天 津 :天 津 科 技 翻译 出 版 有 限 公司 ，2014. 1 
ISBN 978-7-5433-3360-4 


І. Œa П. 人 @ 高 … Oke @ 肖 … Ш. CEFER- ME 
序 设 计 一 应 用 一 生物 信息 论 У. GTP312 ©0811. 4 


中 国 版 本 图 书馆 CIP 数据 核 字 (2014) 第 008047 号 


: 天 津 科技 翻译 出 版 有 限 公司 

刘 Ж 

: 天 津 市 南开 区 白 堤 路 244 号 

300192 

(022) 87894896 

(022) 87895650 

: WWW.tsttpc. сот 

: 天 津 泰 宇 印 务 有 限 公 司 

: 全 国 新 华 书店 

: 787X1092 16 开 本 14. 5 印张 ” 彩 插 0. 5 印张 ”300 千 字 
2014 年 1 月 第 1 版 2014 年 1 月 第 1 次 印刷 
定价 : 58. 00 元 


= 
у Ж 


апштЕ кҥҥ 
лиш йк M 


+ 
可 
Ж 


(如 发 现 印 装 问题 ， 可 与 出 版 社 调换 ) 


ll 


前 


2013 年 最 “ 华 彩 ”的 事件 莫 过 于 6 月 的 “棱镜 门 ”。 据 称 ， 美 国政 府 窃听 的 范围 可 以 
触及 每 一 个 机 构 和 家 庭 。 这 些 在 笔者 看 来 无 非 是 媒体 的 炒作 ， 只 能 作为 茶余饭后 的 谈资 而 
已 。 而 从 数据 处 理 角度 来 看 ， 即 使 美国 政府 有 钱 有 技术 ， 能 够 收集 和 存储 人 类 社会 所 有 的 
通信 信息 ， 那 么 它 也 绝 无 能 力 处 理 这 些 信 息 ， 哪 怕 只 有 1%， 更 别提 形成 有 价值 的 情报 。 理 
由 很 简单 ， 因 为 我 们 进入 了 “大 数据 ”时 代 。 暂 且 不 说 窃听 得 到 的 信息 ， 就 算 现 有 公开 数 
据 库 中 的 数据 又 有 多 少 得 到 了 有 效 利用 。 生 物 信息 就 是 名 副 其 实 的 “大 数据 ”领域 ， 特 别 
是 当前 ， 下 一 代 测 序 主 导 的 基因 组 学 每 天 带 来 数 以 “T” 计 的 海量 数据 ， 远 远 超出 了 现 有 的 
数据 处 理 能 力 。 为 此 ,研究 人 员 开 发 了 一 些 计算 机 语言 或 工具 (如 基于 有 语言 的 Bioconductor 
项 目 ) ， 可 以 高 效 地 处 理 这 些 数据 。 因 此 ， 如 何 提供 有 效 的 培训 ， 出 版 好 的 教材 ， 让 数据 
分 析 人 员 快 速 掌握 这 些 语言 和 工具 ， 已 成 为 “大 数据 ”时 代 一 个 非常 重要 的 课题 。 

本 书 的 几 位 作者 在 考察 了 国内 外 同类 书籍 后 发 现 ， 市 场 上 大 部 分 此 类 教材 或 者 参考 书 
容易 走向 两 个 极端 一 是 过 分 偏重 理论 ， 讲 了 很 多 非常 基本 的 东西 ， 但 是 没有 联系 到 当前 
的 实际 应 用 ， 从 理论 到 算法 ， 到 程序 ， 乃 至 应 用 ， 这 些 连 接 部 都 是 一 大 片 空白 ， 留 给 学 生 
自己 去 摸索 ， 会 让 他 们 难以 理解 ， 进 而 无 法 深刻 掌握 所 学 知识 ; 二 是 闭门造车 式 地 应 用 ， 
有 些 所 谓 “ 应 用 ”或 者 “实战 ”类 书籍 ， 造 出 一 些 根本 不 存在 的 “应 用 ”举例 ， 既 不 讲 明 
这 么 做 的 目的 ， 也 没有 实际 项 目的 背景 知识 ， 让 读者 越 学 越 是 一 头 雾 水 ， 学 到 的 东西 越 多 ， 
越 不 知道 干什么 用 、 该 怎么 用 。 

在 生物 信息 数据 分 析 领 域 ， 如果 能 够 编写 这 样 一 种 书 ， 从 实际 课题 (数据 和 结果 都 已 
经 公开 发 表 ) 出 发 ， 提 出 解决 这 个 问题 的 思路 ， 结 合用 到 的 原理 或 基础 知识 ， 但 更 偏重 整 
个 解决 问题 的 框架 和 流程 ， 选 用 一 种 简单 易学 但 功能 强大 的 语言 ， 把 讲解 延伸 到 具体 程序 
代码 ， 让 读者 百分之百 经 历 整 个 课题 研究 过 程 ， 学 会 分 析 并 解决 问题 。 那 么 可 以 肯定 地 说 ， 
这 个 学 习 的 印象 是 深刻 的 ， 并 真正 能 把 所 学 知识 转化 为 自己 的 技能 。 这 样 的 学 习 过 程 更 加 
“实例 化 ”， 更 符合 学 习 者 的 习惯 ， 而 不 是 编 书 者 的 习惯 。 多 年 的 实际 工作 经 验 告 诉 我 们 ， 
与 计算 机 语言 有 关 的 学 习 ， 必 须 结合 实际 项 目 ， 动 手 与 动脑 同等 重要 ， 而 结合 SCI 文章 中 
的 具体 研究 是 本 书 的 第 一 个 特点 。 

本 书 的 几 位 作者 根据 数据 分 析 (特别 是 生物 信息 方面 ) 领域 多 年 的 工作 经 验 ， 细 心 整 
理 了 部 分 工作 内 容 和 程序 代码 ， 将 R 语 言 和 Bioconductor 尽 可 能 详尽 但 又 不 泛泛 地 介绍 给 
读者 。 由 于 本 书 的 编写 思路 和 风格 是 全 新 的 ， 也 是 一 种 党 试 ， 再 加 上 作者 水 平 有 限 ， 时 间 
紧迫 (国内 读者 催 书 ), 书 内 错误 在 所 难免 。 不 过 , 我 们 的 编写 思路 是 典型 的 “Made in Сһіпа” 
原则 ， 有 个 质量 差 的 能 满足 需要 总 比 没 有 好 。 只 要 能 够 有 益 读 者 ， 挨 如 也 在 所 不 异 。 本 书 
可 作为 高 年 级 本 科 生 和 研一 学 生 的 生物 信息 教材 配套 读物 ， 亦 可 作为 计算 机 和 数据 分 析 领 
域 的 参考 书 。 

本 书 的 第 二 个 特点 就 是 “所 见 即 所 得 ”， 本 书 涉 及 的 全 部 源 代 码 都 可 以 通过 “拷贝 ” 
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和 “粘贴 ”来 运行 ， 并 得 到 书 中 同样 的 结果 ， 使 程序 处 理 的 每 一 个 步骤 都 在 读者 的 掌控 之 
中 。 
本 书 的 第 三 个 特点 就 是 所 有 作者 都 是 通过 互联 网 认识 (此 前 互 不 认识 ) ， 并 一 起 合作 
进行 创作 的 。 和 希望 能 够 由 此 启发 国内 其 他 领域 的 专家 也 能 充分 利用 网 络 的 力量 ， 集 中 优势 ， 
编写 一 些 更 好 的 教材 。 下 面 是 主要 作者 简介 。 

高 山 ， 男 ，1977 年 出 生 ，1995 年 考 入 国防 科技 大 学 电子 工程 学 院 ， 后 转 入 生物 信息 领 
域 ，2010 年 毕业 于 南开 大 学 生命 科学 学 院 ， 取 得 生物 信息 学 博士 学 位 。 留 美 期 间 主 要 科研 
工作 在 美国 堪萨斯 大 学 结构 生物 学 中 心 和 康 奈 尔 大 学 BTI 植物 研究 所 (Boyce Thompson 
Institute for Plant Research) 完成 。2013 年 通过 天 津 市 第 八 批 “ 千 人 计划 ” (青年 项 
Я) 进入 天 津 大 学 工作 。 

欧 剑 虹 ， 男 ，1979 年 出 生 ，1997 年 考 入 武汉 大 学 学 习 微 生物 专业 ， 后 进入 日 本 大 阪 大 
学 ，2009 年 毕业 于 大 阪 大 学 ， 取 得 信息 科学 与 技术 博士 学 位 。2011 年 进入 麻 省 州立 大 学 医 
学 院 从 事 生物 信息 研究 工作 。 

МЛ, B, 1977 年 出 生 ， 职 业 数据 分 析 师 ， “数据 科学 与 R 语言 ”博客 博 主 ， 现 供职 
于 SupStat 统计 咨询 公司 ， 专 注 于 及 语言 与 大 数据 挖掘 方面 的 研究 。 

施 劲 松 ， 男 ，1982 年 出 生 ，2000 年 考 入 南京 大 学 生命 科学 学 院 ， 后 考 入 第 二 军医 大 学 ， 
取得 生理 学 博士 学 位 。2012 年 进入 南京 军区 南京 总 医院 肾脏 病 研 究 所 ， 主 要 研究 方向 是 结 
合 临 床 的 组 学 数据 分 析 。 

杭 兴 宜 ， 男 ，1981 年 出 生 ，2003 年 于 解放 军 第 一 军医 大 学 生物 医学 工程 系 取得 学 士 学 
位 ，2009 年 于 解放 军 军 事 医学 科学 院 取得 生物 信息 学 博士 学 位 ，2013 年 于 解放 军 总 医院 临 
床 医学 流动 站 博士 后 出 站 。 主 要 研究 方向 为 高 通 量 组 学 数据 整合 和 数据 挖 据 、 转 化 医学 数 
据 资 源 建设 等 。 

胡 朝 阳 ， 男 ，1983 年 出 生 ，2007 年 于 华中 科技 大 学 同济 医学 院 取得 学 士 学 位 ，2012 年 
于 复旦 大 学 取得 博士 学 位 。 现 供职 于 杭州 市 肿瘤 医院 肿瘤 研究 所 ， 主 要 从 事 整 合 多 组 学 的 
高 通 量 药物 筛选 研究 。 

宫 秀 军 ， 男 ，1972 年 出 生 ，2002 年 于 中 国 科学 院 计 算 技 术 研究 所 取得 计算 机 软件 与 理 
论 方向 工学 博士 学 位 。2002 一 2003 年 分 别 在 新 加 坡 国 立 大 学 和 新 加 坡 Institute for 
Inforcomm Research (I2R) 做 博士 后 和 访问 学 者 。2003 一 2006 年 就 职 于 日 本 奈良 先端 科学 
技术 大 学 院 大 学 。2006 年 5 月 回国 ， 进 入 天 津 大 学 ， 现 为 计算 机 科学 与 技术 学 院 副教授 。 
研究 方向 主要 包括 数据 挖 气 、 复 杂 信 息 系统 集成 和 生物 信息 学 。 

吕 红 ， 女 ，1978 年 出 生 ，1998 年 考 入 哈尔滨 工业 大 学 航天 学 院 ， 取 得 工学 硕士 学 位 。 
2006 年 进入 天 津 职业 技术 师范 大 学 电子 工程 学 院 工作 ， 主 要 研究 方向 为 通信 信号 处 理 、 通 
信 网 和 移动 通信 技术 。 

本 书 的 其 他 作者 包括 青岛 市 市 立 医院 的 钊 守 凤 (1972 年 出 生 ， 女 ) 、 中 科 院 病毒 所 的 
刘海 舟 (1976 年 出 生 ， 男 ) 、 昆 明理 工大 学 的 焦 建 宇 (1991 年 出 生 ， 男 ) 、 华 南 师范 大 学 
的 游 宇 星 (1988 年 出 生 ， 男 ) 和 美国 凯 斯 西 储 大 学 医学 院 的 管 栋 印 (1983 年 出 生 ， 男 ) 。 
另外 ， 参 与 校对 工作 的 人 员 有 沈阳 农业 大 学 的 齐 明 芒 副教授、 广东 省 农业 科学 研究 院 的 贝 
锦 龙 助理 研究 员 、 山 东 师 范 大 学 的 公 茂 彼 、 河 南 农 业 大 学 的 杨 海 玉 、 中 国 农业 大 学 的 张 媛 
媛 、 华 中 农业 大 学 的 易 坚 、 重 庆 大 学 的 李 勃 、 浙 江 大 学 的 吴 三 玲 、 中 科 院 病毒 所 的 叶 彦 波 、 


美国 伊利 诺 伊 大 学 香槟 分 校 的 张 洋 和 美国 得 州 学 院 的 董 川 。 东 南大 学 的 谢 建明 副教授 、 暨 
南大 学 的 许 忠 能 副教授 和 中 国 农 业 科学 院 甘薯 所 的 曹 清河 副 研 究 员 也 对 本 书 提出 了 宝贵 意 
见 。 本 书 的 封面 设计 原始 创意 来 自 北京 市 理化 分 析 测 试 中 心 的 苏 晓 星 和 延边 大 学 的 李 广 。 

首先 ， 感 谢 BTI 植物 研究 所 的 费 章 君 副教授 在 我 博士 后 期 间 的 指导 以 及 费 章 君 实验 室 
的 毛 林 勇 、 郑 轶 、 包 入 和 和 孙 宏 贺 等 各 位 同事 的 帮助 。 费 老师 是 我 在 第 二 代 测 序 方面 研究 的 
领路 人 人， 不仅 在 专业 上 给 我 多 方面 指导 ， 而 且 在 学 术 研 究 等 其 他 方面 也 使 我 得 到 很 多 训练 。 
本 书 在 第 二 代 测 序 方 面 的 一 些 思 路 和 经 验 有 些 来 自 于 费 老师 实验 室 各 成 员 的 讨论 。 

其 次 ， 感 谢 我 的 博士 生 导 师 南 开 大 学 生命 科学 学 院 的 张涛 和 数学 学 院 的 阮 吉 寿 教授 对 
我 的 长 期 支持 ， 并 作为 我 的 坚强 后 盾 ; 感谢 国家 人 口 与 健康 科学 数据 共享 平台 的 支持 ; 特 
别 感 谢 天 津 大 学 计算 机 科学 与 技术 学 院 前 院 长 孙 济 洲 教授 和 院 长 党 建 武 教授 对 我 回国 工作 
的 热情 帮助 ， 以 及 天 津 市 委 组 织 部 和 天 津 大 学 在 人 才 引 进 方面 的 积极 服务 。 最 后 ， 感 谢 美 
国 堪萨斯 大 学 徐 亮 副教授 提供 了 第 五 章 5.7 部 分 的 芯片 数据 ， 美 国 加 利 福 尼 亚 大 学 助理 教 
授 Thomas Girke 提供 了 第 二 章 内 容 的 部 分 源 代 码 。 本 书 的 资助 来 自 天 津 市 认 知 计算 与 应 用 
重点 实验 室 的 国家 自然 科学 基金 重点 项 目 “ 语 音 产 生 过 程 的 神经 生理 建 模 与 控制 ” 
(F030404 ) 。 本 书 在 编写 过 程 中 ， 还 得 到 了 我 国 肾脏 病 专 家 、 中 国 工程 院 院士 刘 志 红 教授 
的 关怀 和 帮助 ， 在 此 也 一 并 表示 感谢 。 

本 书 的 第 四 个 特点 就 是 写 书 过 程 中 不 断 通 过 QQ 群 征询 本 领域 研究 人 员 的 意见 ， 动 态 交 
流 ， 其 间 对 内 容 进 行 了 多 次 修改 ， 而 且 本 书 的 售后 服务 和 答疑 也 将 通过 QQ 群 160685613 进 
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本 书 全 部 作者 (由 高 山 执笔 ) 
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写 给 生物 信息 学 的 读者 


本 书 既 是 一 本 R 语言 的 书 ， 又 是 一 本 生物 信息 学 的 书 ， 因 此 考虑 到 大 量 读者 可 能 来 自 
生物 信息 学 或 相关 领域 ， 本 书 作 者 写 下 如 下 寄语 ， 以 求 共勉 。 在 人 类 基因 组 催 发 的 第 一 轮 
生物 信息 热潮 衰退 后 ， 生 物 信 息 一 度 陷 入 一 个 很 大 的 低潮 ， 在 很 多 科学 “大 牛 ” 断 言 生物 
信息 学 科 是 一 个 “Junk” 后 ， 很 多 激动 人 心 的 事件 接连 发 生 了 。 

以 下 一 代 高 通 量 第 二 代 测 序 领 衔 的 另 一 轮 生物 信息 热潮 悄然 而 至 ， 对 生物 领域 的 产 学 
研 都 产生 了 深远 影响 。 基因 组 的 快速 廉价 测定 ， 使 生物 信息 学 从 实验 室 更 快走 向 应 用 。 在 
农业 领域 ， 大 量 非 模式 植物 的 基因 组 得 到 了 快速 准确 的 测定 ， 更 多 的 抗 病 高 产 基因 被 发 握 ; 
在 医学 领域 ， 癌 症 和 其 他 疾病 的 基因 型 检测 更 加 可 靠 。 无 论 是 基于 全 基因 组 测序 的 无 创 产 
检 ， 还 是 癌症 靶 向 药物 服用 前 的 外 显 子 组 得 查 ， 都 显示 了 生物 信息 学 已 进入 百姓 生活 。 

2013 年 诺 贝 尔 化 学 奖 在 瑞典 揭晓 : Martin Karplus、Michael Levitt 和 Arieh Warshel 
三 位 科学 家 因 “为 复杂 化 学 系统 创立 了 多 尺度 模型 ”而 获奖 。 有 兴趣 的 读者 可 以 去 三 位 科 
学 家 的 网 站 看 一 下 他 们 的 研究 方向 ， 你 就 会 发 现 ， 生 物 的 东西 比 化 学 多 ， 他 们 研究 的 对 象 
全 部 都 是 生物 大 分 子 ， 特 别 是 蛋白 质 ， 而 他 们 的 研究 手段 就 是 计算 。 可 以 毫 不 夸张 地 预测 ， 
未 来 的 化 学 和 生理 学 奖 ， 很 难 不 与 生物 和 信息 发 生 关系 。 而 生物 和 信息 科学 这 两 个 领域 恰 
恰 就 是 当今 时 代 的 “ 显 学 ”， 二 者 的 结合 成 为 了 非常 重要 的 研究 方向 。 

如 果 把 这 个 热潮 比 作 股市 ， 这 还 只 是 一 个 初生 浪 ， 后 面 会 一 浪 接 一 浪 。 笔 者 在 写作 过 
程 中 ， 技 术 领 域 又 发 生 了 翻天 履 地 的 变化 。 学 习 永 远 赶不上 技术 发 展 ， 这 是 一 个 新 型 学 科 
发 展 壮 大 的 最 重要 标志 。 第 二 代 测 序 方 兴 未 艾 , 第 三 代 测序 又 发 生 了 突破 性 进展 . 以 PacBio 
公司 为 代表 的 第 三 代 测 序 技术 可 以 在 更 短 的 时 间 内 同时 记录 几 十 万 个 DNA 或 RNA 单 分 子 合 
成 的 信息 ， 患 实地 记录 生物 体内 的 这 些 生命 过 程 ， 使 人 类 解析 生命 现象 的 能 力 发 生 革 命 性 
进展 。 第 二 代 测 序 刚 革 了 第 一 代 测 序 的 命 ， 自 己 的 命 又 要 被 第 三 代 测 序 所 革 。 测 序 技术 只 
是 一 个 开端 ， 诱 导 多 能 干细胞 技术 、 基 因 组 编辑 和 靶 向 蛋白 质 组 等 新 兴 生 物 领 域 ， 都 在 等 
待 生 物 信息 学 者 的 进入 。 

生物 信息 领域 的 同行 ， 特 别 是 初学 者 最 关注 的 是 ， 生 物 信息 应 该 学 些 什 么 计算 机 基础 。 
除了 数据 库 、 操 作 系统 ( 特 指 linux ) 的 使 用 ， 笔 者 认为 还 应 该 掌握 一 个 简单 编程 语言 ( 例 
如 Perl) 和 一 个 数据 处 理 语言 (例如 R) ， 后 者 可 以 更 简单 地 处 理 统计 绘图 等 非常 复杂 的 
编程 应 用 ， 在 生物 信息 学 领域 万 为 重要 。 

本 书 由 于 是 网 络 组 队 ， 管 理 松散 ， 技 术 发 展 之 快 让 我 们 难以 下 笔 。 再 三 权衡 ， 考 虑 到 
芯片 分 析 是 Biocondonctor 的 起 源 ， 因 此 还 是 把 它 作为 重点 予以 介绍 ， 对 于 当前 真正 的 热 
点 第 二 代 测 序 只 介绍 了 其 中 的 RNA-seq。 由 于 写 书 时 间 紧 , 最 有 前 途 的 第 三 代 测 序 本 书 没有 
详细 讨论 ， 这 里 提醒 各 位 读者 一 定 要 密切 关注 PacBio 公司 的 SMRT 技术 ， 笔 者 正在 进一步 
整理 相关 资料 ， 希 望 在 以 后 版 本 中 推出 。 


编者 
2013 12 月 
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在 面 对 各 种 复杂 的 数据 问题 时 ， 如 果 能 用 儿 行 代码 就 轻松 实现 使 用 者 的 想法 而 无 须 了 
解 其 底层 的 实现 细节 ， 那 么 使 用 者 就 可 以 从 繁忙 的 编程 工作 中 解脱 出 来 而 投入 更 多 的 精力 
到 应 用 领域 。R 就 是 基于 此 目的 设计 的 程序 语言 ， 并 已 在 业界 盛行 。 越 来 越 多 的 公司 (包括 
谷歌 、 辉 瑞 和 美国 银行 等 业界 巨头 ) 和 学 术 界 的 数据 分 析 师 开始 使 用 R 语言 ， 欧 美 各 大 名 
校 也 都 将 R 语言 列 为 数据 分 析 课 程 的 必修 语言 。 借 用 谷歌 首席 经 济 学 家 Hal Varian 的 一 名 
话 来 评价 R:“R 语言 的 美 在 于 你 稍 做 修改 ， 就 可 以 用 它 来 达到 不 同 的 使 用 目的 ， 它 预 置 了 
各 种 可 用 的 扩展 包 ， 使 你 站 在 巨人 的 肩膀 上 工作 。” 

R 作为 统计 分 析 、 绘 图 的 语言 和 操作 环境 中 ， 它 有 两 层 含义 : 一 方面 ，R 是 一 套 计 算 机 
语言 ， 它 定义 了 自己 的 语法 ， 可 用 来 实现 各 种 自 定义 的 算法 ， 因 此 称 为 R 语言 ， 同 时 ，R 
也 是 一 个 软件 ， 是 一 个 基于 操作 系统 的 集成 开发 和 操作 环境 ， 包 括 了 用 户 交互 界面 、 编 译 
系统 、 各 种 工具 和 扩展 包 。 为 了 避免 初学 者 混淆 ， 本 文中 用 R 语言 、R 软件 和 К 分 别 表示 
第 一 、 二 层 含 义 以 及 两 者 的 统称 。 本 章 的 1.1 将 先 简单 介绍 R 的 背景 ; 之 后 在 1.2 介绍 R 软 
件 的 下 载 和 安装 ，1.3 通过 一 个 实例 使 读者 可 以 快速 入 门 ; 1.4 总 结 本 章 用 到 的 语法 知识 。 


1.1 什么 是 RR 


1.1.1 R% Ag 


R 语言 脱胎 于 20 世纪 70 年 代 诞 生 的 S 语言 中 ， 可 以 认为 是 后 者 的 一 种 方言 。1975 一 
1976 Œ, AT&T 贝尔 实验 室 统 计 研 究 部 在 使 用 Fortran 语言 做 统计 分 析 时 发 现 , 如 果 用 Fortran 
编程 ， 花 在 编程 上 的 时 间 同 取得 的 分 析 效 果 相 比 得 不 偿 失 ， 于 是 就 创建 了 更 为 高 级 的 S 语 
言 由 。S 语言 的 理念 ， 用 它 的 发 明 者 John Chambers 〔〈 后 来 也 成 了 R 语言 的 核心 团队 成 员 ) 
的 话说 就 是 “快速 且 忠 实地 把 想法 转换 为 软件 ” 铝 。 后 来 ，S 语言 表现 极为 优秀 ， 因 此 在 
1998 年 被 美国 计算 机 协会 《Association of Computing Machinery, АСМ) 授予 了 “软件 系统 
奖 (Software System Award)” 这 是 迄今 为 止 众多 统计 软件 中 唯一 被 АСМ 授奖 的 统计 系统 。 
1993 年 ，S 语言 的 许可 证 被 MathSoft 公司 (2001 年 MathSoft 总 部 迁 到 西雅图 ， 并 改名 为 
Insightful 公司 。2008 年 被 TIBCO 公司 收购 ) 买 断 ， 并 在 此 基础 上 开发 出 S-PLUS 。 由 于 
S-PLUS 继承 了 S 语言 的 优秀 血统 ， 因 此 被 世界 各 国 的 统计 学 家 广泛 采用 ， 成 为 世界 上 公认 
的 三 大 统计 软件 之 一 。R 与 S-PLUS 作为 5 语言 的 两 种 实现 ， 几 乎 继承 了 S 语言 全 部 的 语法 
与 数据 结构 ，R 同时 还 吸收 了 Scheme 的 语法 。S、S-PLUS 和 R 有 很 高 的 兼容 性 ， 很 多 代码 
不 需要 改变 即 可 到 另外 一 个 平台 直接 运行 ,参考 手 册 资 料 也 可 以 相互 借鉴 。 到 后 来 ,，R 的 迅 
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猛 发 展 使 S 和 S-PLUS 的 用 户 逐 渐 都 转 到 了 RÉ 

1993 年 , 在 S 语言 的 源 代码 的 基础 上 , 新 西 兰 奥克兰 (Auckland) 大 学 统计 系 的 Robert 
Gentleman 和 Ross Ihaka 编写 了 一 套 能 执行 S 语言 的 软件 , 并 以 邮件 列表 的 形式 共享 可 执行 
程序 ， 于 是 R 语言 便 问世 了 〈“R” 命 名 来 自 于 两 位 开发 者 名 字 的 第 一 个 字母 ，》 趾 。1995 年 
6 H, 在 苏黎世 联邦 理工 学 院 (德语 : Eidgenössische Technische Hochschule Zürich, 简称 ETH 
Zürich) Martin Mächler 的 建议 下 , Robert 和 Ross 根据 自由 软件 基金 会 的 公共 授权 协议 (Free 
software foundation's GNU general license) 公开 了 R 的 源 代码 ， 大 量 优 秀 统计 学 家 加 入 到 R 
语言 开发 的 行列 ，R 语言 的 功能 逐渐 强大 (图 1-1). 1997 年 ， 为 了 更 好 地 组 织 开 发 和 维护 
R 语言 , Robert、Ross 和 Martin 又 成 立 了 一 个 包括 11 个 人 的 RR 语言 核心 团队 (core group), 
这 就 是 当前 R 核心 开发 小 组 (R development соге team) 的 前 身 。 到 了 2000 年 ， 互 联网 、 生 
物 信息 海量 数据 挖掘 的 强大 需求 使 传统 的 统计 和 数据 分 析 进 入 了 大 数据 (Big data) 时代。 
R 语言 的 市 场 份额 爆发 式 增 长 ， 根 据 最 权威 的 计算 机 图 书 出 版 公司 欧 菜 礼 (OReilly) 的 调 
查分 析 显 示 ， 仅 从 2010 年 到 2011 年 ，R 语言 书籍 的 市 场 份 额 就 扩大 了 127%， 图 1-1 显示 
了 各 主要 计算 机 语言 2011 年 的 市 场 变 动 。 


Іа о © 


python -8% 


тору 279 


ruby 27% 


javascript 24% 


objective c -20% 


图 1-1 R 语 言 书籍 市 场 的 爆发 (2011 年 ) 
1.1.2 ++ 6% S 


作为 一 套 完整 的 数据 处 理 、 统 计 和 绘图 的 系统 和 操作 环境 ，R ERRA FRAS, 
(1) 功能 强大 且 扩展 性 强 
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R 语言 的 库 函数 以 扩展 包 的 形式 存在 , 方便 管理 和 扩展 。 由 于 代码 的 开源 性 , 使 全 世界 
优秀 的 程序 员 、 统 计 学 家 和 生物 信息 学 家 加 入 到 R 社区 ， 为 其 编写 了 大 量 的 R 包 来 扩展 其 
功能 。 这 些 К 包涵 盖 了 各 行 各 业 数据 分 析 的 前 沿 方法 :从 统计 计算 到 机 器 学 习 、 从 金融 分 
析 到 生物 信息 、 从 社会 网 络 分 析 到 自然 语言 处 理 、 从 各 种 数据 库 各 种 语言 接口 到 高 性 能 计 
算 模型 ， 几 乎 无 所 不 包 。 这 也 是 为 什么 R 正在 获得 越 来 越 多 业界 人 士 喜爱 的 一 个 重要 原因 。 
本 章 的 1.1.3 将 通过 几 个 例子 说 明 及 语言 的 强大 功能 。 


(2) 编程 简单 且 交互 性 强 


作为 一 种 解释 性 的 高 级 语言 , R 程序 的 编写 非常 简洁 , 仅仅 需要 了 解 一 些 函 数 的 参数 和 
用 法 ， 不 需要 了 解 更 多 程序 实现 的 细节 ， 而 且 R 能 够 实时 显示 输入 的 程序 或 命令 的 结果 ， 
让 用 户 所 见 即 所 得 。 这 个 特点 非常 有 助 于 快速 学 习 R，( 见 本 章 1.3)。 


(3) 与 其 他 编程 语言 或 软件 配合 方便 


R 可 通过 相应 接口 连接 各 类 数据 库 获取 数据 ,如 Oracle, DB2 Ek MySQL; tH fél] Python, 
Java, C 或 C++ 等 语言 进行 相互 调用 ; R 还 提供 了 API 接口, 很 多 统计 软件 可 调用 R 函数 ， 
W SAS, SPSS 和 Statistica 等 。 此 外 ，R 的 分 析 结 果 也 很 容易 导出 以 供 其 他 软件 使 用 。R 的 
混合 编程 以 及 与 各 种 软件 的 接口 和 配合 可 以 使 程序 开发 者 大 大 提高 工作 效率 ， 这 方面 的 例 
子 可 以 参看 第 三 章 。 


(4) 跨 平台 

R 可 在 多 种 操作 系统 下 运行 ,如 Windows、MacOS、 各 种 版 本 的 Linux 和 UNIX 等 ,用 
户 其 至 可 以 在 浏览 器 中 运行 RW 。 

(5) 开源 和 免费 

源 代码 的 开放 便于 集中 各 学 科 的 人 才 ， 使 R 可 以 快速 包括 各 种 新 算法 和 新 功能 ， 另外 


也 方便 了 初学 者 的 深入 学 习 。 当 前 ， 盗 版 统计 软件 (如 SAS、SPSS 和 MATLAB) 的 使 用 严 
重 影响 了 R 在 中 国 的 普及 。 但 是 随 着 知识 产权 法 律 和 意识 的 加 强 , R 免费 的 优势 迟早 会 爆发 。 


(6) 强大 的 社区 支持 


R 平均 每 6 个 月 发 布 一 个 新 版 本 ， 并 有 完备 的 帮助 系统 和 大 量 文档 以 帮助 用 户 学 习 使 
用 。R 有 各 类 讨论 群 和 论坛 ， 方便 R 包 开发 者 解答 用 户 问题 。 这 部 分 内 容 可 以 参看 附录 А. 


(7) 方便 撰写 分 析 报 告 


用 户 可 以 在 一 个 文档 〈 分 析 报 告 ) 中 混 排 文 本 、 图 形 、R 程序 源 代码 等 所 有 元 素 ， 分 析 
结果 会 被 自动 插入 该 文档 ， 并 以 各 种 格式 (HTML、XML、Word 或 PDF) 输出 ， 从 而 方便 
修改 和 分 享 研 究 过 程 。 这 部 分 内 容 会 在 1.2.3 详细 介绍 。 

当然 ，R 也 存在 一 些 不 足 ， 主 要 有 五 点 : 第 一 ，R 严重 消耗 内 存 ， 它 不 仅 习 惯 一 次 性 把 
全 部 数据 读 入 内 存 进行 处 理 , 还 偏好 申请 连续 的 内 存 块 , 这 与 Linux 占用 一 定 内 存 来 作为 组 
冲 的 习惯 发 生 冲 突 ; 第 二 ，R 运行 效率 低 ， 较 之 编译 型 语言 (如 C) 有 很 大 差距 ;第 三 ，R 


Q4 R 语 言 与 Bioconductor 生物 信息 学 应 用 


虽然 提供 了 一 些 并 行 计算 的 扩展 包 ， 但 是 如 何方 便 地 支持 并 行 计算 依然 还 是 一 个 吸 待 解决 
的 问题 ;第 四 ， 由 于 R 不 断 吸 收 新 算法 以 及 不 断 更 新 扩展 包 ， 导 致 了 帮助 文档 过 于 简单 ， 
版 本 兼容 性 也 存在 一 定 问 题 ; 第 五 ， 源 代码 缺乏 注释 ， 缺 乏 高 级 版 本 管理 工具 ， 用 户 不 易 
阅读 源 代码 。 在 上 述 不 足 中 ， 前 三 点 都 是 技术 原因 ， 相 信 会 随 着 计算 机 技术 的 发 展 的 不 断 
改善 ， 但 是 后 面 的 两 点 很 大 程度 涉及 了 用 户 的 教育 培训 ， 由 于 R 的 学 习 不 仅 要 具备 一 定 的 
计算 机 和 统计 方面 的 知识 ， 而 且 还 需要 专业 领域 的 一 些 背 景 知识 ， 当 前 R 相关 的 各 类 书籍 
和 手册 中 很 难 找到 一 个 合适 的 出 发 点 或 者 框架 来 满足 不 同 专业 背景 的 R 用 户 的 需求 。 

特别 注意 的 是 ，R 包 的 一 个 最 重要 的 缺陷 就 是 版 本 升级 过 快 ， 一 些 高 层 扩 展 R 包 的 兼 
容 性 差 ， 某 个 版 本 写 好 的 代码 到 了 另 一 个 版 本 上 可 能 无 法 运行 ， 因 此 R 程序 在 交流 、 发 布 
的 过 程 中 一 定 要 在 最 后 附 上 版 本 信息 (请 参见 例 4-12)。 本 书 中 的 大 部 分 R 代码 都 在 R-2.15.1 
上 调试 ， 为 了 节省 空间 ， 省 略 了 版 本 信息 输出 ; 部 分 代码 在 更 早 一 些 版 本 上 完成 ， 未 经 
R-2.15.1 上 调试 ， 因 此 在 最 后 附 上 版 本 信息 。 
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许多 知名 大 公司 都 在 使 用 R 来 分 析 数 据 。 例 如 谷歌 公司 通常 使 用 R 来 进行 数据 探索 和 
原型 建 模 ， 然 后 再 使 用 С 或 Python 来 将 模型 运用 到 大 规模 数据 中 。 而 Facebook 则 使 用 К 
中 的 决策 树 扩展 包 来 预测 用 户 的 网 络 行为 ， 并 在 此 基础 上 改善 用 户 体验 。 从 行业 分 布 来 看 ， 
R 几乎 无 所 不 在 ， 只 要 有 统计 与 绘图 的 地 方 就 有 R 的 用 武之 地 。 当 前 比较 集中 的 行业 包括 
互联 网 (包括 地 理 信息 )、 金 融和 生命 科学 等 。 以 下 通过 几 个 实例 来 简要 说 明 。 


(1) 统计 与 绘图 


R 诞生 的 目的 就 是 为 了 进行 统计 计算 , 最 初 它 被 定义 为 一 个 统计 计算 与 绘图 的 工具 。 在 
R 语言 中 可 以 方便 地 计算 各 类 统计 分 布 、 参 数 估计 和 假设 检验 等 , R 也 能 进行 数值 计算 ， 例 
如 方程 求 根 、 数值 积分 和 最 优化 问题 ; R 还 可 以 处 理 微分 方程 和 系统 动力 学 问题 以 及 进行 系 
统 模拟 。 对 于 计算 机 领域 的 研究 热点 一 一 机 器 学 习 和 数据 挖掘 ,，R 通过 扩展 包 的 形式 几乎 涵 
盖 了 所 有 的 已 知 算法 〈 如 神经 网 络 、 决 策 树 、 随 机 森林 、 支 持 向 量 机 及 贝 叶 斯 方法 等 )， 并 
不 断 收 集 各 类 前 沿 算法 。R 的 强大 绘图 功能 无 与 伦比 ， 不 仅 支 持 各 类 基本 图 形 〈 如 直方 图 、 
箱 线 图 和 散 点 图 等 )， 还 能 让 用 户 随 心 所 欲 地 通过 三 维 图 形 和 动态 图 形 展现 数据 。 图 1-2 即 
是 用 R 语言 进行 地 震 数据 可 视 化 〈 例 1-1) 的 结果 。 该 图 用 R 抓 取 了 最 近 一 周 在 中 国 发 生 
的 地 震 数据 ， 并 将 其 绘制 在 谷歌 中 国 地 图 上 ， 其 中 的 深 色 散 点 代表 地 震 发 生地 点 ， 从 中 可 
以 观察 到 川 藏 交界 一 带 是 地 震 高 发 区 域 。 


(2) 互联 网 数据 挖掘 


近 几 年 社交 网 络 成 为 互联 网 行业 的 中 心 话题 。 无 论 是 旗舰 级 别 的 Facebook， 还 是 如 
雨后春笋 般 冒 出 来 的 各 种 团购 和 微 博 网 站 ， 都 或 多 或 少 地 体现 着 社会 网 络 服务 (Social 
networking services, SNS) 的 概念 ， 这 为 社会 网 络 分 析 (Social network analysis, SNA) 0 
提供 了 珍贵 的 研究 数据 。 通 过 研究 网 络 关 系 ， 有 助 于 把 “微观 ”网 络 与 大 规模 的 社会 系 
统 的 “宏观 ”结构 结合 起 来 ， 这 使 在 以 往 只 能 依靠 有 限 的 调研 或 模拟 才能 进行 的 社会 网 
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络 分 析 ， 具 备 了 大 规模 展开 和 实施 的 条 件 。 在 R 语言 中 ， 有 很 多 扩展 包 提供 了 SNA 7 
法 和 工具 。 图 1-3 就 是 利用 “igraph” 扩 展 包 03 绘 制 的 一 个 网 络 图 〈 例 1-2)， 该 图 表示 
了 一 个 根据 Barabasi-Albert 模型 算法 随机 生成 的 无 尺度 网 络 。 如 果 将 它 看 作 是 一 个 小 型 
社交 网 络 ， 那 么 网 络 中 的 点 就 是 社交 圈 中 的 个 体 ， 而 点 之 间 的 连 线 表 示 了 个 体 之 间 的 社 
交 联系 。 


图 1-2 基于 R 语 言 的 地 震 数 据 可 视 化 


图 1-3 基于“igraph” 扩 展 包 的 社交 网 络 图 


M6 R 语 言 与 Bioconductor 生物 信息 学 应 用 


(3) 金融 分 析 


在 金融 定量 分 析 领 域 , R 语言 也 表现 出 极 强 的 能 力 , 它 提供 了 大 量 的 金融 分 析 函 数 ， 可 
用 于 金融 分 析 的 各 个 方面 四。 其 中 包括 了 财务 数据 的 获取 和 整理 ,例如 从 Yahoo 网 站 获取 上 
市 公司 的 财务 报表 和 历史 报价 ;计算 各 类 人 金融 产品 定价 ， 如 期 权 、 债 券 和 各 类 资产 组 合 ; 
对 金融 时 间 序 列 数 据 建 模 , 如 ARIMA 模型 和 GARCH 模型 ; 以 及 风险 管理 方面 的 定量 风险 
模型 和 各 类 精算 模型 等 。 图 1-4 就 是 利用 R 语言 的 “quantmod” 包 来 获取 中 国 上 证 指数 数 
据 ( 例 1-3)， 然 后 绘制 的 K 线 图 和 MACD 指标 图 。 
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81-4 基于 quantmod 包 的 中 国 上 证 指数 K 线 与 MACD 指 标 图 
(4) 生命 科学 及 其 相关 领域 1 


与 生命 科学 相关 的 领域 包括 生物 信息 学 (分 子 及 基因 组 水 平 ) [4、 医 学 图 像 处 理 09、 
进化 与 生态 学 [1 、 化 学 计量 学 以 及 药物 化 学 等 "9。 互 联网 和 生物 信息 学 可 以 说 是 R 语言 世 
两 个 强大 的 助 推 剂 ， 它 们 带 来 的 海量 数据 分 析 和 可 视 化 的 需求 真正 刺激 了 R 的 迅猛 发 展 。 
各 种 组 学 ， 特 别 是 下 一 代 测 序 技术 的 高 速 发 展 ， 催 生 了 Bioconductor 生物 信息 软件 包 ， 开 
启 了 生物 信息 学 的 R 语言 时 代 02。 图 1-5 就 是 利用 R 语言 的 “ggplot2” 来 绘制 的 一 组 基因 
本 体 论 (Gene Ontology, GO) 术语 (егт) 之 间 的 相互 关系 〈 例 1-4)。 图 1-5 中 各 个 术语 
的 相互 关系 一 目 了 然 ， 用 户 可 以 从 整体 上 把 握 各 个 术语 表示 的 生物 学 概念 之 间 的 关系 ， 并 
快速 定位 自己 感 兴趣 的 概念 及 关系 ， 为 下 一 步 的 研究 提供 思路 。 


114 R 语言 的 应 用 现状 和 发 展 趋势 
随 着 数据 的 爆炸 式 增长 ， 大 数据 分 析 需 求 也 水 涨 船 高 ， 各 种 新 老 软 件 或 工具 都 在 不 断 


提升 。 为 了 动态 跟踪 数据 挖掘 和 分 析 工 具 及 编程 语言 的 发 展 趋势 ， 著 名 的 数据 挖掘 与 分 析 
网 站 KDNuggets (http://www.kdnuggets.com) 每 年 都 会 根据 用 户 的 投票 进行 一 次 年 度 调 查 ， 
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调查 的 问题 是 :“ 过 去 一 年 中 ， 你 在 实际 项 目 中 使 用 的 数据 分 析 工 具 〈 软 件 )”。 在 2012 年 5 
月 做 的 第 13 次 调查 中 (图 1-6)，R 以 30.7% 的 得 票 率 荣 登 榜首 ， 超 过 Excel (29.8%) 和 
RapidMiner (26.7% )。 而 实际 上 后 两 种 工具 只 能 看 作 是 软件 ， 因 其 不 具备 低层 编程 
(Lower-level coding) 的 能 力 ， 因 此 还 要 进行 应 用 编程 语言 (Lower-level languages) 方面 的 
比较 。 在 这 方面 ，R 击败 了 第 2 名 的 SQL 和 第 3 名 的 Java， 排 名 第 一 。 另 外 ， 值 得 注意 的 
是 ， 免 费 开源 软件 的 用 户 (30%) 超过 了 商业 软件 的 用 户 〈28%)， 还 有 41% 的 用 户 同时 使 
用 免费 开源 和 商业 软件 ， 大 数据 工具 的 用 户 从 2011 年 (3%) 到 2012 年 (15%) 增长 了 4 
倍 。 免 费 开 源 和 处 理 大 数据 正 是 R 的 强项 ， 从 这 个 角度 来 看 ，R 的 市 场 份 额 还 会 增加 。 
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图 1-5 基于 ggplot 包 的 基因 本 体 论 术语 关系 图 〈 见 彩 图 ) 
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图 1-6 关于 数据 工具 语言) 使 用 情况 的 调查 结果 (来 自 KDNuggets 网 站 ) 
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为 了 跟踪 业内 程序 开发 语言 的 流行 使 用 程度 ，TIOBE Chttp:/www.tiobe.com) 每 月 推出 
一 个 排行 榜 ， 到 2012 年 9 月 ，R 语言 的 排名 升 至 24 位 ， 其 市 场 占 有 率 已 经 达到 了 0.44%, 
R 语言 也 被 列 为 崛起 最 快 的 七 门 语言 之 一 。 不 少 开 厂商 已 经 着 手 设 计 支 持 了 R 语言 的 产品 ， 
例如 包括 Oracle, IBM, Teradata, Sybase 和 SAP 等 在 内 的 各 大 数据 库 厂商 已 有 了 相应 的 RR 
语言 企业 级 应 用 产品 。TIOBE 给 出 的 排行 是 不 分 领域 的 ， 虽 然 一 定 程度 上 反映 了 编程 语言 
的 发 展 趋势 ， 但 对 具体 工作 的 指导 意义 不 大 。 在 实际 工作 中 , .更 看 重 编程 语言 在 专业 领域 
的 排名 。 在 生物 信息 领域 ，Bioinfsurvey 网 站 Chttp:/www. Bioinfsurvey.org) 对 各 种 主流 生 
物 信 息 编程 语言 的 用 户 数 量 给 出 了 排名 ，R 语言 稳 居 第 一 (图 1-7)。 因 此 ， 可 以 说 R 是 生 
物 信息 专业 的 首选 编程 语言 。 
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1-7 ”主流 生物 信息 学 编程 语言 的 用 户 数 量 排名 (来 自 Bioinfsurvey 网 站 ) 


从 各 方面 的 招聘 信息 来 看 ， 对 R 语言 的 人 才 需 求 也 日 渐 旺盛 。 著 名 的 网 络 公 司 Twitter 
发 布 的 招聘 广告 对 数据 分 析 人 员 明 确 提出 了 要 求 会 使 用 R 语言 。 就 连 美国 总 统 奥巴马 在 招 
募 竞 选 团 队 中 的 数据 分 析 师 时 СОБата Campaign Needs Digital Analysts)， 也 要 求 应 聘 者 具 
有 R 语言 的 技能 。 从 这 些 招 聘 要 求 中 ， 可 以 看 到 业界 对 于 R 语言 的 认可 程度 。 时 任 辉 瑞 
(Pfizer) 公司 非 临床 数据 部 (Nonclinical Statistics) 副 主 任 Мах Kuhn 曾 说 过 这 样 一句 话 ; 
“R 已 成 为 研究 生 毕 业 后 必修 的 第 二 语言 .”D 图 1-8 是 一 则 生物 信息 分 析 人 员 的 招聘 广告 ， 
他 提出 的 编程 方面 的 要 求 具 有 普遍 的 意义 〈 图 1-8 中 黑色 框 内 )， 必 须 掌 握 R/Bioconductor 
语言 ， 同 时 还 要 掌握 Perl 或 Python 语言 中 的 一 种 。 

目前 R 在 中 国 的 普及 率 并 不 是 非常 高 ， 主 要 用 户 集中 在 高 校 及 科研 机 构 。 但 近年 来 随 
着 R 的 声名 更 起 ， 已 经 有 越 来 越 多 的 业界 人 士 选择 R 作为 自己 的 工作 平台 。 国 内 R 语言 推 
广 方面 的 一 个 重要 组 织 者 是 “统计 之 都 ”Capital of statistics, 简称 COS, 网 址 http://cos.name) 
网 站 ， 成 立 于 2006 年 5 月 。 在 “统计 之 都 ”的 积极 推动 下 ， 自 2008 年 起 ， 每 年 举行 一 次 
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“中 国 R 语言 会 议 ”， 截 止 到 本 文 撰写 ， 已 举办 了 6 届 。 会 议 主要 的 目的 是 介绍 各 行业 R 的 
应 用 情况 以 及 新 进展 。 从 前 6 届 的 中 国 R 语言 会 议 来 看 ，R 的 中 国 用 户 群 一 直 呈 现 较 大 的 
增长 趋势 ， 用 户 分 布 的 领域 也 越 来 越 丰富 。 可 以 毫 不 夸张 地 说 ， 随 着 数据 挖掘 和 数据 分 析 
的 黄金 时 代 到 来 ， 擅 长 数据 分 析 的 R 语言 的 前 景 也 是 一 片 光明 。 


We аге seeking а Statistical Bioinformatician to work as part of the Computational Biology Research Group (СВАО), based at {һе Weatherall Institute of 
Molecular Medicine (WIMM) in Oxford, UK. The CBRG collaborates with WIMM scientists to successfully integrate bioinformatics into their research 


Working as part of the CBRG team, the successful candidate will be the main point of contact for statistical and bioinformatics projects with a statistical 
component at the WIMM. The work will include application of existing tools and method development in the following areas but not limited to: next 
generation sequence analysis (RNA-Seq. ChiP-Seq. Variant analysis). biological modelling, experimental design and proteomics analysis 


You will have an M 
skills in statistics, 
UNIX/LINUX enviro : 9 
manage multiple i орда and achi deadlines. 


іра апајуѕіѕ of high dimensional datasets 
pogania Parl or Python and RJBioconductor рш 00 oiher analysis packages are essential $ You will have experience of working in a 


ӨТ and planning skills would be expected to 


http//www imm ох ас uk/careers/curment-vacancies/statistical-bioinformatician 


If you have any questions feel free to contact me 
Kind regards and thanks, 


Steve Taylor 

Head of Computational Biology | Research Group 
Weatherall Institute of NMolecular Medicine 
University of Oxford 

John Radcliffe Hospital 

Headington 

Oxford OX3 9DS 

www cbrg ox ас ик 
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1.2 R 的 下 载 与 安装 


R 总 体 上 分 为 主 程序 〈 含 基础 包 ) 和 扩展 包 两 部 分 ， 前 者 需要 从 其 官方 网 站 
(http://www.r-project.org) 下 载 并 安装 ， 后 者 则 是 需要 用 到 某 个 包 时 再 去 安装 。R 官方 网 站 提 
供 了 有 关 各 版 本 к 主 程序 和 R RA. 等 各 类 信息 。 


1.2.1 主 程序 的 下 载 与 安装 


作为 开源 软件 , R 支持 所 有 的 系统 平台 , 一 般 下 载 页 面 会 提供 三 种 常用 操作 系统 上 的 安 
装 程序 (Windows, Linux 以 及 MacOS X). НҒ Linux 系统 通常 不 采用 通过 图 形 界 面 下 载 
到 本 地 再 安装 的 方式 , 而 是 采用 命令 行 方 式 在 线 安装 , 如 Fedora 系统 , 可 以 执行 “sudo yum 
install R-devel”; Ubuntu 系统 则 需要 执行 “sudo apt-get install r-base-dev”。 由 于 不 同 的 Linux 
版 本 采用 不 同 的 工具 , 这 里 不 做 详细 介绍 。 本 书 重点 介绍 Windows 平台 上 К 的 安装 与 使 用 ， 
以 便于 初学 者 边 学 习 边 模仿 。 

Windows 系统 必须 先 下 载 再 安装 ， 登 录 R 官方 网 站 http://www.r-project.org/， 选 择 
“download R”( 图 1-9 框 内 部 分 )， 读 者 可 以 看 到 “CRAN Mirrors” 页 面 ， 里 面包 括 了 所 有 
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R 的 镜像 网 站 ， 选 择 一 个 本 国 的 点 击 进入 下 载 页 面 。 


Ф ИИИ e е "зө каш 
өө ш 


B a е 


Аве 人 Clustering 4 groups Factor 1 [41%] - Factor 3 [19%] 


What is R? Са 

Contributors a 

Screenshots % 

What's пек? : =p | К 

Download, Packages _ = = в ә о}? а 


CRAN 


R Project 
Foundation 
Members & Donors 
Mailing Lists В. Е “еч 
Trackin | | UNIX platforms, Windows and MacOS. To|download R,| please choose your preferred CRAN mirror. 


Getting Started: 


+ R is a free software environment for statistical computing and graphics. It compiles and runs on a wide variety of 


Bug Tracking o 2 А = -a Р а 
Developer Раде | + If you һауе questions about К like how то download and install the software, or what the license terms are, please 
Conferences | read our answers to frecvently asked questions before you send ап email. 
Search kas карч == — 
е ~ News: 
Documentation 
гац + К version 3.0.2 (Frisbee Sailing) has been released оп 2013-09-25. 
Тһе К Tari * useR! 2013, took place at the University of Castilla-La Mancha, Albacete, Spain, July 10-12 2013. 
158 Е езы. z 7 + Тһе К Journal Vol.5/1 is available. 
Бооке | * R version 2.15.3 (Security Blanket) has been released on 2013-03-01. 
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首先 点 击 “Download В for Windows” 进 入 “R for Windows” 页 面 ， 初 次 安装 只 需要 选 
择 安装 基本 包 “base”( 图 1-10 中 框 内 部 分 )。 进一步 点 击 后 会 看 到 的 当前 版 本 “Download R 
2.14.1 for Windows (45 megabytes, 32/64 bit)”, 点 击 下 载 即 可 。 


R for Windows 
Subdirectories: 


base Binaries for base distribution (managed by Duncan Murdoch). This is what уоп want їойпзїаП Е for the first time. 
CRAN contrib Binaries of contributed packages аер Uwe Ligges). There is also information оп third party software 
Mirrors ыр available for CRAN Windows services апа corresponding environment and make variables. 
What's пет? Rtools Tools to build R and R packages (managed by Duncan Murdoch). This is what you want to build your own packages on 
Task Views Windows, or to build R itself. 
Search 


Please do not submit binaries to CRAN. Package developers might want to contact Duncan Murdoch or Uwe Ligges directly in case of questions / suggestions 
About R related to Windows binaries. 


You may also want to read the R ЕАО and R for Windows FAQ. 


Note: CRAN does some checks on these binaries for viruses, but cannot give guarantees. Use the normal precautions with downloaded executables. 


Documentation 
Manuals 

FAQs 
Contributed 


图 1-10”R 官 方 中 R 软 件 (Windows 版 ) 下 载 界面 


直接 运行 下 载 后 得 到 的 可 执行 文件 R-2.14.1-win.exe， 按 照 安装 向 导 (Wizard) 的 提示 ， 
逐步 进行 安装 。 安 装 成 功 后 桌面 会 出 现 两 个 快速 启动 图 标 : 一 个 是 “R 2.14.1”， 表 示 32 位 
系统 ， 另 一 个 是 “R x64 2.14.1”， 表 示 64 位 系统 。 本 书 的 讲解 全 部 参照 64 位 英文 系统 。 


1.2.2 扩展 包 的 下 载 与 安装 


一 个 编程 语言 的 功能 强大 与 否 ， 主 要 取决 于 它 的 函数 库 ，R 的 函数 库 以 R 包 的 形式 存 
在 。 基 本 函数 库 〈 基 本 R ARRIR К) 和 RR 程序 同时 发 布 ， 可 以 实现 大 多 数 经 典 的 统 
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计 方 法 和 基本 的 数据 处 理 以 及 显示 功能 。R 一 个 突出 特点 就 是 有 大 量 的 扩展 К 包 存 在 ， 能 
够 实现 更 为 复杂 的 统计 绘图 、 工 程 计 算 以 及 与 其 他 语言 的 相互 调用 等 功能 。 扩 展 R 包 主 要 
有 两 个 来 源 ， 一 部 分 来 自 R 的 官方 网 站 CRAN (The Comprehensive В Archive Network, 
http://cran.r-project.org/)， 截 止 到 本 书 撰写 大 约 有 3628 个 函数 包 可 供 下 载 ; 另 一 部 分 是 第 三 
方 (CRAN) 管理 的 ， 如 生物 数据 分 析 包 Bioconductor (http://www.bioconductor.org/)。 第 
三 方 管理 的 R 扩展 包 在 CRAN 也 有 镜像 ， 但 由 于 相对 比较 独立 ， 因 此 本 书 将 CRAN 扩展 包 
与 第 三 方 扩展 包 分 开 对 待 。 这 里 介绍 三 种 不 同 的 扩展 包 安 装 方式 。 


(1) 在 线 安装 


如 图 1-11 所 示 ， 在 Windows 平台 上 ， 可 以 通过 图 形 界 面 菜单 栏 选 择 菜 单 【Packages 孙 
[Install package(s) ... 】， 出 现 图 中 “CRAN mirror” 界 面 。 然 后 选择 中 国境 内 的 CRAN 镜像 ， 
点 击 【 确 定 】。 接着 会 进入 供 选择 需要 安装 程序 包 的 界面 “Packages”， 这 里 以 常用 的 ggplot2 
为 例 ， 选 择 后 点 击 【 确 定 】 之 后 会 出 现下 载 的 程序 包 进 度 条 ， 下 载 完成 后 会 自动 安装 ， 完 
成 后 进入 RGui 窗口 。 更 一 般 和 简单 的 方法 是 在 R 中 使 用 下 列 命令 来 安装 (适用 于 任何 操作 
， 系 统 ): 
options(CRAN= “http://cran.r-project.org”); # 指定 镜像 网 站 。 
install.packages( “ggplot2” ); 


Еіе--Еда Мем Packages И File Edit View Misc Packages 


Windows Help = 1 Es Windows Help i в 
| еы Је[ој [ә 8] 


У | | R R Console ' 
| 


ШЕТ 


Canada (QC 2) 
Chile 
China (Beijing 1) 


1 {| 
China (Beijing 2) ‚|Ё | ggm 


China (Beijing 3) |=] | ggmap 
|| China (Guangzhou) ш | | аутстс 
{| China (Hefei) | || GGMselect 
Сһїпа (Хїатеп) ГЕ агае! 
„|| Colombia (Bogota) l | 99р 
Colombia (Cali) 17 {| ggsubplot 
Е) Denmark FE | | GhcnDaily 
Ecuador T \| || ghyp 
France (Toulouse) Ё К gibbs.met 
France (Lyon 1) Ы [| GillespieSSA 
'hell| France (Lyon 2) {| giRaph 
PA] Germany (Berlin) | GISTools 
1 Giza 
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(2) 下 载 到 本 地 安装 


在 Windows 平台 上 ， 可 以 通过 图 形 界面 菜单 平台 ， 选 择 菜单 【Packages 】》【 Install 
package(s) from local zip files...】， 然 后 找到 下 载 的 包 ， 点 击 确定 。 更 一 般 和 简单 的 方法 是 在 
В 中 使 用 命令 来 安装 ， 注 意 Windows 系统 需要 下 载 “.zip” 格 式 的 包 文件 ，Linux 则 需要 下 
载 “.tar.gz”。 

install.packages("C:\\ ggplot2.zip", contriburl = NULL) 


(3) 使 用 第 三 方 提供 的 脚本 在 线 安装 〈 以 Bioconductor 为 例 ) 


首先 通过 source Chttp://bioconductor.org/biocLite. R) 下 载 安装 脚本 biocLite 到 环境 中 ， 
然后 使 用 biocLite 函数 安装 所 有 Bioconductor 核心 包 , 其 他 Bioconductor 程序 包 依 赖 于 这 些 
核心 包 , 所 以 必须 先 执行 该 命令 , 待 安装 完成 后 再 安装 其 他 包 , 否则 某 些 包 将 无 法 使 用 library 
命令 加 载 。 安 装 所 需 的 特定 包 时 ， 需 要 传 入 包 的 名 称 ， 如 biocLite (“limma”). 


1.2.3 Фейт 


主 程序 安装 完毕 , 双击 打开 后 就 可 进入 R 控制 台 (图 1-12)。R 软件 有 两 种 方式 来 运行 
R 代码 : 交互 模式 和 批 处 理 模 式 。 在 交互 模式 下 ,用户 在 控制 台中 输入 命令 ，R 就 会 马上 返 
回 结果 。 在 批 处 理 模式 下 ， 可 以 在 控制 台中 用 Source 函数 来 执行 编写 好 的 R 程序 。 


R version 2.14.2 (2012-02-29) 

Copyright (С) 2012 Тһе R Foundation for Statistical Computing 
ISBN 3-900051-07-0 

Platform: i386-pc-mingw32/í386 (64-Б1с) 


R їз free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or '11сепсе()' for distribution details. 


| R is a collaborative project with many contributors. 
| Туре 'сопсгіросогз()' for more information апа 
T 'citation()' оп how со cite R ог R packages іп publications. 


| Type 'йето()' for some demos, 'ће1р()' for on-line help, or 
| 'help.start{)' for an HTML browser interface to help. 
| Туре 'а()'* to quit R. 
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显然 R 控制 台 提 供 的 功能 过 于 简单 。 当 然 ， 作 为 一 种 现代 编程 语言 ，R 也 有 自己 的 集 
成 开发 环境 (IDE) 一 一 RStudio。RStudio 的 主要 特点 是 出 色 的 界面 设计 、 足 平台、 集成 了 多 
种 编程 辅助 工具 。 读 者 可 以 从 官方 网 站 (www:rstudio.org) 自行 下 载 安装 ， 本 书 中 使 用 的 
RStudio 版 本 是 RStudio-0.96.316， 它 具有 以 下 显著 特点 。 


(1) RStudio 的 界面 直观 而 简洁 


图 1-13 所 示 即 为 RStudio 的 运行 界面 ， 它 把 所 有 可 能 要 用 到 的 窗口 全 部 集成 到 一 个 界 
面 中 ， 分 成 Source、Console、History 以 及 Help 四 个 大 块 ， 并 以 标签 形式 展现 其 他 辅助 功 
能 。 左 上 和 角 Source 提供 了 编写 代码 的 编辑 器 ， 左 下 角 的 Console 窗口 就 是 控制 台 ， 图 像 输 
出 将 出 现在 右 下 角 Plots 窗口 ， 在 右上 和 角 的 History 窗口 可 查看 历史 。 所 需要 的 东西 一 目 了 
然 ， 非 常 简洁 清楚 。 


[еы үнө туен емш (Рыс кек нр 
| ФС] diamundPriing.R* x Dj furmalPIuLR =. { | 
BB 四 Sourceonsave © Z7 S+ [入 source -这 toad | F) saves Trinport batasetv 时 LezrAl ә 
І 1ibrary(ggplot2) -| Data | 
2 diamonds 53940 obs. o? 10 variables J 
3 view(diamoncs) y 
4 summary(diamonds)} 
5 УС aveSize С.7979 
5 summary(diamondsšprice) clarity character [8] 
ё avesize <- roundimean(dianondsscarat), 4) | р сор1от [8] 
8 clarity <- Леуе15 (сіатопазѕ+с1агіту) | 
9 | Functions 
10 p <- qplot(carat, price, | Format.plot(plot, size) 
11 cata=diamonds, со1ог=с1агісу, | 
12 xlab="Carat", ylab= Price", 
13 паіл="Оіатопі Pricing”) 
14 —- а == Е нш 
Fies Рюз Padages Help г 
$ Р тоот Eeport- Ө g earal 
i LD top leve) > ee „упр е 
corsole -7 一 口 Diamond Pricing 
a y z 2 EP" ger y 
Min. : 3.000 min. : 0.000 win. : С. 000 5 * 
ist Qu 4.710 151 Qu. : 4.720 ist Qu.: 2.910 Clarity 
Median : 5.700 Median : 5,710 Мешїап ; 3.530 
Mean 5.731 Mean 15.735 меап : 2.539 + 
3rd Qu.: 5.540 зга Qu.: 6.540 3гс Qu.: 4.040 ыз 
Max. :10.740 мах. :58.900 Nax. :31.800 Ы 
> ѕитпагу(11 атспаѕ %ргісе) КЕН ` е" 
mMin. ist Qu. медіап Mean 3rd Qu. Max. Prica vs2 
326 950C 2401 3933 5324 18820 
> avesize <- rcund(mean(diamonds$carat), 4) VS1 
> clarity <- levels{diamonds$clarity) wsz 
> р <- cplot{carat, price, 
+ data=diamonds, color=c arity, ws1 
+ xlab="carat", ylab="Pprice", iF 
+ main="Diamond Pricing") 
> F 
| 
> fornat.plottplot=p, size=2ż) E 
> Ш. 
| Е) 


图 1-13 ”RStudio 的 主 界面 
(2) 多 种 编程 辅助 工具 


RStudio 的 编辑 器 有 代码 自动 补 全 功能 ， 对 于 记得 不 大 清楚 的 函数 ， 可 以 使 用 Tab 键 来 
获得 函数 名 和 参数 的 提示 帮助 。 对 于 图 像 生 成 的 辅助 也 很 好 ， 有 非常 方便 的 Export 按钮 帮 
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助 导 出 各 种 格式 的 图 片 。 另 外 对 于 R 中 包 的 操作 也 非常 直观 ， 可 以 在 Package 页 面 中 查看 
已 经 安装 的 包 并 可 以 勾 选 需要 加 载 的 包 。 对 于 代码 很 多 的 用 户 提供 了 Project 功能 ， 以 方便 
管理 不 同 项 目的 代码 ， 而 且 RStudio 还 整合 了 git 版 本 控制 。 


(3) RStudio 支持 在 文档 中 混 编 代码 


用 户 在 撰写 数据 分 析 报 告 时 ， 往 往 需 要 先 在 R 中 运行 代码 ， 然 后 将 运行 结果 以 文本 或 
图 形 方式 拷贝 到 报告 中 ,这样 排版 的 效率 极 低 ， 而 且 很 容易 出 错 。 但 现在 只 要 将 RStudio 结 
合 knitr 包 ， 就 可 以 在 一 个 文档 中 混 排 文本 、 图 形 、 程 序 源 代码 等 所 有 元 素 ， 分 析 结 果 会 被 
自动 插入 该 文档 ， 并 以 各 种 格式 (HTML、XML、Word 或 PDF) 输出 ， 从 而 方便 修改 和 分 
享 研 究 过 程 。 

RStudio 支持 两 种 新 文件 格式 ,分 别 是 Rnw 格式 和 Rmd 格式 。 在 Rnw 文件 中 ， 你 可 以 
混合 编写 Тех 代码 和 R 代码 ，R 代码 由 特定 标记 进行 注 明 。 点 击 编译 PDF 时 ，R 代码 会 先 
被 调用 执行 ， 并 输出 相应 的 结果 到 文档 中 源 代码 都 被 相应 的 计算 结果 代替 )， 然 后 再 调用 
Тех 编译 文档 为 PDF， 然 后 合成 为 最 终 的 报告 。 报 告 中 对 R 代码 会 自动 进行 语法 高 亮 ，R 运 
行 的 结果 也 自然 插入 到 报告 之 中 。 但 Тех 编写 比较 复杂 ， 门 槛 较 高 ， 而 且 有 时 用 户 也 需要 生 
成 Word 文档 进行 处 理 , 所 以 对 于 入 门 用 户 还 是 推荐 R+Markdown 的 方式 , 也 就 是 Rmd 文档 ~ 

在 Кта 文件 中 ， 人 允许 用 户 混合 编写 Markdown 代码 和 R 代码 ，Markdown 一 种 非常 简 
洁 的 标记 语言 ， 它 能 使 书写 变 得 简单 ， 而 只 需要 5 分 钟 就 能 学 会 。 本 书 就 是 利用 的 Rmd 的 
混 编 模式 来 生成 的 。 下 面 通过 一 个 具体 例子 来 详细 介绍 如 何 使 用 R+Markdown。 

®© 安装 RStudio 与 knitr 包 ( 需 要 R2.14.2 以 上 版 本 支持 ); 

source("http://bioconductor.org/biocLite.R"); 
# 安装 全 部 Bioconductor 扩展 包 。 
biocLite(); 

biocLite("knitr"); 

©) 打开 RStudio 点 击 Tools, ЖЛ Options 进行 设置 ， 具 体 如 图 1-14 所 示 ; 

@) 然后 根据 Markdown 语法 编写 文本 ; 

@ 当 需 要 插入 R 代码 时 ， 点 击 Insert Chunks 来 插入 一 个 空 的 R 代码 区 ; 

© 在 空白 文档 中 插入 文本 (图 1-15 红色 框 内 )、 图 片 和 R 程序 代码 (图 1-15 蓝 色 和 
红色 框 内 ); 

@ 点 击 Knit HTML (图 1-15 黑色 框 内 )， 该 文档 编译 为 HTML 格式 ， 并 在 另 一 窗口 
显示 ， 同 时 生成 Untitled1.html 和 RmdUntitled1.md 两 个 文件 ; 

D 如 果 需 要 生成 Wod 文档 ， 需 另外 下 载 并 安装 pandoc 软件 ， 在 终端 内 输入 
shell (“pandoc input.md -o output.docx”) 即 可 (图 1-15 绿色 框 内 )。 


Options 


| Program defaults (when not їп a project) 


Weave Rnw files using: ? 


General 
| Typeset LaTeX into PDF using: ,pdfLaTeX |? 

wr NOTE The Rnw weave апа LaTeX compiiotion options аге aiso set оп а per-project (апа 

Code Editing | optionally рег-йіе) basis Click the heip icons above for more details 
= | 

E| | LaTeX editing and compilation 

Ca 
дерезгасе [7]|С1еап auxiliary output after compile 


| 加 Enable shell escape commands 


РЭРРЕ [insert numbered sections апа subsections 
Pane Layout | 


[lInvoke compiler via texi2dvi script 


| PDF preview 
Sweave | 
| Preview PDF after compile using: [Sumatra (Recommended) Y | 7 
АВС 
м | [/]Аһмау enable Rnw concordance (required for synctex) 
Spelling | 


Version Control | 


(Т Ji 


1-14 ”RStudio 中 Sweave 设 置 的 示意 图 


Cancel Apply 


Не Edit Code View Project 


mm Ріо Tools Help- 


EE Sd 
©з Untitledl* х me 
B а m =>Run b+ @ Chunks- 
„7 [ж нм] | 
2 
3 
4 
i 
5 
6 
7 
8 fset.seed(1234) ， HEIRE E R Axo U EE 


rnorm(100) ж 


(总 体 平 均值 为 0， 标 准 差 为 1) 的 随机 数 


添加 一 条 曲线 。 


~ir} 


图 1-15 RStudio 中 文本 、 代 码 和 注释 的 混 排 〈 见 彩 图 ) 
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1.24 民主 程序 和 扩展 包 的 管理 与 升级 


R 主 程序 所 有 文件 都 可 以 在 用 户 指定 的 安装 目录 内 找到 ， 如 上 例 指 定 为 “C:\Program 
Files\R\R-2.14.1”。 安 装 目 录 下 有 3 个 重要 的 子 目录 。 第 1 个 是 “bin”， 里 面包 括 了 R 软件 
的 所 有 可 执行 文件 ;第 2 个 是 “library” 里 面包 括 了 R 所 有 的 基本 函数 库 (基本 R 包 ); 
第 3 Е “еіс”, 包括 所 有 的 配置 文件 ， 用 户 可 以 通过 改写 配置 文件 对 R 主 程序 的 功能 进行 
设置 。 下 面 举 一 个 例子 说 明 如 何 配 置 R 控制 台 : R 控制 台 会 自动 给 出 警告 或 错误 信息 ， 其 
相应 语言 会 根据 操作 系统 自动 设置 ， 中 文 操作 系统 的 警告 或 错误 信息 就 是 中 文 的 ， 但 是 目 
前 中 文 的 翻译 效果 不 理想 (图 1-16), 而 且 网 上 搜索 更 多 采用 英文 信息 作为 关键 词 ， 所 以 需 
要 将 此 类 信息 设 定 为 英文 显示 。 具 体 做 法 是 : 进入 “etc” 目 录 ， 打 开 文 本 文件 Rconsole, 
找到 行 “ 痒 Language for messages”， 在 下 一 行 添 加 或 改写 “language = еп”. 


188 јер 回回 


|> library (edgeR 


错误 于 1ibrary ledgeR) : 不 存在 岂 'edgeR' 这 个 名 字 的 程 辑 包 


> 


В RGui (64-bit) - [R Conso 
necon 


回回 本 加 时 回回 


> library (ledgeR)} 

Loading required package: limma 

Warning messages: 

|1: package ‘edgeR’ was built under R version 2.14.2 
2: package ‘limma’ was built under R version 2.14.2 
|> 


图 1-16 ”警告 与 错误 信息 的 英文 提示 


Linux 系统 上 ， 由 于 有 yum 等 软件 管理 工具 ， 可 以 用 这 些 工具 将 кв 主 程序 直接 升级 到 
最 新 版 本 。 在 Windows RRE, R 主 程序 不 支持 直接 升级 ， 一 般 需 要 和 卸载 旧版 本 ， 然 后 再 
下 载 安装 新 版 本 。 也 可 以 不 外 载 旧版 本 就 安装 新 版 本 ， 这 样 就 保留 了 旧版 本 ， 这 在 实际 工 
作 中 很 有 用 。 例如， 在 科学 研究 中 ,经 常 需要 重复 前 期 工作 (相应 程序 代码 建立 在 旧版 本 R 
ЖЫШ БЭ, 新 版 本 不 可 能 对 旧版 本 100% 兼 容 ， 因 此 计算 结果 会 有 一 定 差异 ， 必 须 保留 旧版 本 。 

初次 安装 尽量 不 要 选 最 新 版 本 ， 新 版 本 往往 不 稳定 ， 内 部 存在 诸多 Bug。 如 果 R 扩展 
包 对 R 主 程序 有 最 低 版 本 要 求 ， 则 必须 升级 。 如 例 2.4.1 (图 1-16) 中，Bioconductor 的 两 
个 扩展 包 edgeR (2.4.6) 和 limma (3.10.3) 要 求 R 主 程序 最 低 版 本 是 R-2.14.2， 因 此 R 控 
制 台 在 加 载 edgeR 时 给 出 警告 。 如 果 坚 持 在 R-2.14.1 上 运行 这 两 个 包 ， 可 能 会 影响 计算 结 
果 ， 因 此 建议 及 主 程序 升级 到 R-2.14.2 以 上 版 本 。 

扩展 R 包 的 存放 位 置 也 在 第 一 次 安装 时 由 用 户 指定 ， 如 上 个 例子 指定 为 C:\Users\ 
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gaoshan\Documents\R\win-library\2.14.。 对 于 多 用 户 操 作 系 统 , 每 个 用 户 可 以 有 自己 的 扩展 RR 
包 路 径 。 升级 主 程序 时 , 可 以 通过 简单 移动 , 继续 使 用 已 安装 的 扩展 包 (旧版 本 )。 如 例 2.4.1 
中 ， 首 先 安装 R2.15.1 主 程序 ， 然 后 将 旧 目 录 〈 如 上 例 .\win-library\2.14) 中 所 有 的 文件 找 
贝 到 新 目录 C:\Users\gaoshan\Documents\R\win-library\2.15， 最 后 运行 下 面 语句 : 

update.packages(checkBuilt=TRUE, ask=FALSE) 

但 是 上 面 的 做 法 存在 一 个 问题 ， 即 不 能 保证 R 扩展 包 与 R 主 程序 的 版 本 一 致 性 。R 扩 
展 包 的 开发 和 更 新 很 快 ， 用 户 在 使 用 时 ， 需 要 保证 R 扩展 包 与 R 主 程序 的 同步 升级 。 上 例 
中 , 我 们 把 R 主 程序 从 R2.14.1 升级 到 了 R2.15.1, 但 是 扩展 包 edgeR 和 limma 还 是 旧版 本 ， 
如 果 一 定 要 在 新 版 本 的 R 主 程序 上 运行 旧 的 R 扩展 包 ， 有 可 能 不 能 用 到 最 新 扩展 包 带 来 的 
新 功能 。 另 外 ， 最 主要 的 是 新 版 本 的 R 扩展 包 修复 了 旧 包 的 一 些 Bug， 因 此 同步 升级 是 很 
必要 的 .特别 对 于 Bioconductor 来 说 ,很 大 一 部 分 运行 错误 都 是 由 于 旧 RR 扩展 包 存 在 的 Bug， 
而 解决 方法 主要 依靠 R 扩展 包 升 级 .CRAN 扩展 包 可 以 通过 update.packages 函数 在 线 升级 ; 
Bioconductor 扩展 包 升 级 也 很 简单 ， 只 需要 在 新 版 本 的 К 主 程序 中 运行 下 列 语句 : 

source(“http://bioconductor.org/biocLite.R”) 

update.packages(repos=biocinstallRepos(), ask=FALSE) 

或 者 全 部 重新 安装 所 有 已 经 存在 的 Bioconductor 扩展 包 ， 这 对 互联 网 带宽 有 一 定 要 求 。 

source(“http://bioconductor.org/biocLite.R”); 

pkgs <- rownames(installed.packages()); 

biocLite(pkgs); 


1.3 民 语 言 快速 入 门 


1.3.1 从 哪 里 入 手 开 始 学 习 民 


本 书 读 到 这 里 ， 所 有 的 读者 都 会 有 如 下 一 些 问 题 : R 语言 这 么 强大 ， 是 不 是 很 难 学 ? 如 
果 没 有 计算 机 基础 从 头 学 习 RR 语言 ， 产 出 和 投入 比 是 否 合理 ? 学 习 R 语言 上 有 没有 捷径 ? 

通常 来 讲 ， 掌 握 一 门 编程 语言 ， 首 先 要 学 习 大 量 语法 ， 并 阅读 他 人 的 源 代码 。 语 法 学 
习 已 经 相当 耗 时 了 ， 对 于 没有 计算 机 基础 的 初学 者 更 是 难 上 加 难 。 阅 读 他 人 的 源 代码 需要 
非常 好 的 代码 注释 ， 而 往往 这 方面 的 资料 又 奇 缺 。 无 论 从 哪个 方面 入 手 ， 都 会 遇 到 一 定 的 
困难 。 但 是 本 书 可 以 很 明确 地 告诉 你 ，R 语言 之 所 以 强大 , 不 仅仅 在 于 它 的 易学 上 手 快 , 还 
在 于 投入 小 产 出 大 。 我 们 在 大 量 的 教学 及 培训 经 验 基础 上 ， 为 读者 选择 了 这 样 一 条 捷径 ， 
那 就 是 根据 难度 递增 原则 ， 阅 读 具 有 代表 性 的 源 代码 〈 附 有 详细 注释 )， 并 及 时 总 结 用 到 的 
语法 ， 使 读者 由 浅 入 深 慢 慢 学 会 如 何 编 程 ， 如 何 查 阅 资料 自行 解决 问题 ， 最 后 达到 熟练 使 
用 R 的 程度 。 这 样 做 的 另外 一 个 好 处 是 ， 读 者 在 学 习 R 语言 的 同时 ， 还 可 以 直接 使 用 或 者 
改写 我 们 提供 的 代码 ， 以 完成 自己 的 应 用 。 
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1.32 三 板 答 搞 定 尺 语言 


R 软件 有 两 种 方式 来 运行 R 程序 ， 交互 模式 和 批 处 理 模式 。 在 交互 模式 下 ， 用 户 在 控 
制 台 中 输入 命令 , R 就 会 马上 返回 结果 。 在 批 处 理 模 式 下 , 用 户 先 在 编辑 器 中 输入 代码 文本 ， 
然后 在 控制 台中 用 source 函数 来 执行 编写 好 的 RR 程序。 交互 模式 可 以 使 读者 详细 地 观察 每 
一 步 数 据 处 理 得 到 的 即时 结果 ， 为 学 习 R 语言 提供 了 便利 。 本 书 为 了 便于 读者 调试 运行 所 
有 出 现 的 R 源 代码 ， 专 门将 它们 汇总 为 电子 资源 ， 读 者 不 必 人 工 输入 程序 代码 。 

为 了 使 读者 快速 掌握 R 语言， 本 书 推出 三 板 佐 快速 学 习 法 : 

QD 安装 和 加 载 需要 的 扩展 包 ; 

@@ 设 定 工作 目录 ， 并 保证 输入 数据 存在 ; 

@@ 复 制 粘贴 代码 ， 运 行程 序 。 


1.3.3 ЯЖ = ж + 


上 文 的 例 1-1 中 ， 主 要 用 到 了 三 个 扩展 包 : XML 包 用 于 从 地 震 信 息 网 抓 取 最 近 一 周 的 
地 震 数 据 ggmap 包 用 于 获取 google 地 图 ;ggplot2 用 于 最 后 的 合成 绘图 。 通 过 学 习 下 面 代 
码 ， 读 者 就 会 发 现 ， 掌 握 有 效 的 方法 来 实现 R 编程 ， 将 会 使 得 一 个 复杂 功能 的 代码 非常 
简洁 。 


(1) 安装 和 加 载 需要 的 扩展 包 ， 读 者 可 以 拷贝 并 在 控制 台中 运行 下 列 代码 


install.packages(ggmap ); 
install.packages('maps'); 
install.packages('XML'); 
install.packages('ggplot2'); 
install.packages(Cmapproj ); 
library(ggplot2); 
library(ggmap); 
library(XML); 
library(maps); 
library(mapproj); 


(2) 设 定 工作 目录 ， 并 保证 输入 数据 存在 


大 部 分 情况 下 ， 待 处 理 的 数据 需要 本 地 读 取 ， 则 要 存放 在 R 知道 的 地 方 ， 即 工作 目录 
(Working Directory). # R 中 getwd 函数 可 以 用 来 查询 当前 目录 ，setwd(dir) 函 数 则 用 来 指定 
当前 工作 目录 (并 不 能 永久 性 的 改变 ， 如 若 想 永久 性 改变 工作 目录 可 以 按照 “右键 快捷 方 
式 图 标 /属性 /起 始 位 置 ”步骤 直接 修改 即 可 )。 如 果 使 用 RStudio， 也 可 以 使 用 快捷 键 
CtrltShift+K 来 设 定 工作 目录 。R 可 以 从 多 种 渠道 接收 输入 数据 ， 除 了 前 面 提 到 的 本 地 文件 
的 方式 ， 还 可 以 从 互联 网 主页 直接 获取 数据 。 本 例 中 的 数据 采集 自 网 址 
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http://data.earthquake.cn/datashare/globeEarthquake_csn.html。 为 了 保证 输入 数据 的 存在 , 编写 
代码 前 需要 在 浏览 器 中 输入 网 址 确认 该 页 面 可 以 正常 访问 。 


(3) 复制 粘贴 代码 并 运行 程序 


将 下 面 的 全 部 代码 复制 粘贴 到 R 的 控制 台中 ， 然 后 回 车 执行 ， 或 者 是 复制 到 RStuido 
中 ， 全 选 后 点 击 run， 读 者 即 可 以 看 到 图 1-2 显示 的 结果 。 然 后 ， 逐 行 复制 粘贴 ， 并 回 车 执 
行 ， 所 有 的 中 间 结 果 都 保存 在 变量 中 ， 读 者 可 以 直接 输入 变量 名 称 并 回 车 ， 即 可 看 到 该 变 
量 的 所 有 信息 。 

url <- ‘http://data.earthquake.cn/datashare/globeEarthquake_csn.html'; 

tables <- readHTMLTable(url,stringsAsFactors = FALSE); 

raw <- tables[[6]]; ? 

data <- Taw[ ,с(1,3,4)]; 

names(data) <- с('аѓе',ап!,1оп”); 

data$lan <- as.numeric(data$lan); 

data$lon <- as.numeric(data$lon); 

data$date <- as.Date(data$date, "%Y-%m;%d"); 

ggmap(get_googlemap(center='china',zoom=4,maptype='terrain'),extend='device')+geom_ 
point(data=data,aes(x=lon,y=lan),colour='red',alpha=0.4)+opts(legend.position="none"); 


1.4 一 些 简单 的 语法 知识 


1.4.1 什么 是 编程 


计算 机 通过 接收 指令 指挥 机 器 工作 ， 人 们 通过 编制 程序 表达 自己 的 意图 ， 并 交 给 计算 
机 执行 。 程 序 就 是 一 系列 按 一 定 顺序 排列 的 指令 ， 执 行程 序 的 过 程 就 是 计算 机 的 工作 过 程 。 
在 硬件 层面 一 条 指令 包括 两 方面 的 内 容 : 操作 码 和 操作 数 ， 操 作 码 决定 要 完成 的 操作 ， 操 
作 数 表示 参加 运算 的 数据 及 其 所 在 的 单元 地 址 。 

在 R 这 类 高 级 语言 中 ， 操 作 码 扩展 为 函数 ， 操 作 数 扩展 为 变量 。 变 量 用 于 接收 数据 ， 
函数 实现 对 数据 的 处 理 。 因 此 ， 只 要 掌握 了 变量 和 函数 两 方面 内 容 ， 就 可 以 学 好 任何 一 门 
编程 语言 。 

上 文 的 例 1-3 的 程序 由 9 条 语句 〈 指 令 ) 组 成 ， 每 条 语句 一 行 ， 结 尾 不 需要 任何 标点 
符号 ， 也 可 以 以 分 号 作为 结束 标志 〈 这 点 与 常见 编程 语言 相同 )。 整 个 程序 可 以 一 起 拷贝 到 
R 控制 台中 回 车 运行 ， 也 可 以 逐 行 拷贝 单独 运行 。 


142 变量 


| 1-1 中 的 “un”“tables”“raw” 等 所 有 “<-” 前 出 现 的 东西 都 叫做 变量 ， 变 量 对 应 


2120 R 语言 与 Bioconductor 生物 信息 学 应 用 


计算 机 的 内 存 或 寄存 器 地 址 ， 用 于 保存 数据 。R 语言 的 一 个 重要 特点 就 是 向 量化 操作 ， 即 R 
的 变量 常常 是 一 个 向 量 。 向 量化 运算 的 优点 在 于 使 代码 变 得 简洁 易 懂 ， 而 且 回避 了 循环 ， 
使 运算 速度 加 快 。 下 面 代码 用 с 函数 来 构建 一 个 包含 了 4 个 元 素 (4%) 向 量 ， 并 赋值 给 变 
量 x。 运 行 如 下 : 

>x <- с(1,2,3,4) 


>X 

[1]1234 

向 量 之 间 可 以 进行 加 减 乘除 在 内 的 各 种 运算 ， 例 如 运行 : 
> с(1,2,3,4) + c(3,4,5,6) 

[1] 4 6 810 


由 于 向 量 中 可 以 存放 数值 、 逻 辑 和 字符 等 类 型 的 数据 ， 因 此 向 量 又 可 以 分 为 数值 型 、 
逻辑 型 和 字符 型 等 ， 更 多 的 关于 向 量 的 数据 类 型 的 内 容 请 参见 第 七 章 。 上 例 中 的 向 量 就 是 
一 个 数值 向 量 ， 而 例 1-1 中 的 “url” 保 存 的 就 是 包含 一 个 元 素 的 字符 向 量 ， 下 例 是 一 个 包 
含 两 个 元 素 的 字符 向 量 : 

> с("һеПо world", "I am a R user") 

[1] "hello world" "I am a R user" 


1.4.3 L 


在 R 语言 中 ， 所 有 的 操作 都 是 由 函数 来 完成 的 。 计 算 机 语言 中 的 函数 由 函数 名 和 参数 
(也 是 一 种 变量 ) 两 项 组 成 的 。 函数 对 输入 的 数据 进行 某 种 运算 或 操作 ,再 将 结果 (函数 值 ) 
作为 输出 返回 。 例 如 下 面 计算 指数 的 例子 : 

> ехр(0) # 调用 函数 exp 计算 0 的 自然 指数 。 

[111 

其 中 exp 是 函数 名 ， 括 号 中 的 0 即 为 输入 值 ， 而 结果 1 则 是 函数 的 输出 。 如 果 用 向 量 x 
替换 数值 0， 就 可 以 分 别 计 算 х 中 每 个 值 的 指数 。 

> X<-1:4 # 产生 一 个 向 量 (1,2,3,4)。 

> ехр(х) 

[1] 2.718282 7.389056 20.085537 54.598150 

R 的 函数 大 部 分 是 内 置 的 ,也 就 是 说 不 需要 定义 函数 这 一 处 理 的 过 程 。 但 是 在 很 多 时 候 ， 
需要 编写 自 定义 函数 来 完成 特定 的 目的 ， 这 在 К 中 是 很 容易 做 到 的 。 下 面 定义 了 一 个 计算 
圆 面 积 的 函数 ， 然 后 调用 这 个 自 定义 函数 来 计算 半径 为 4 的 圆 面积 : 


> area<-function(x){ # 定义 函数 ， 函 数 名 是 area， 参 数 x 用 来 接受 输入 。 
+ result<-pi*x^2 # 计算 半径 为 x 的 圆 面积 。 

+ return(result) # 定义 返回 值 ， 来 自 变 量 result。 

+} 

> агеа(4) # 调用 函数 area 计算 半径 为 4 的 圆 面积 。 


[1] 50.26548 
上 例 中 的 函数 只 有 一 个 输入 值 和 一 个 输出 值 ， 当 然 输 入 输出 可 以 有 多 个 值 。 下 例 希望 
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输入 两 个 值 ， 然 后 分 别 算出 它们 的 和 与 差 。 


> add.diff<-function(x,y){ # 输入 参数 有 2 个 ，x 和 y。 

+ add<-x + у # 计算 x+y 的 值 ， 并 存 入 变量 add。 

+ diff<-x – у # 计算 x 一 y 的 值 ， 并 存 入 变量 аш. 

+ return(c(add,diff)) # 定义 返回 值 ， 向 量 (add,difp)。 

+} 

> add.diff(x=5,y=3) # 调用 函数 add.diff 来 计算 5 和 3 的 和 与 差 。 
[1] 82 


R 语言 中 的 函数 除了 完成 计算 功能 ( 即 根据 输入 值 产生 输出 值 》 外 ， 还 可 以 完成 绘图 、 
文件 读 取 、 网 络 访问 等 多 项 任务 。 由 于 函数 能 方便 地 重复 使 用 ， 所 以 在 学 习 使 用 R 语言 时 
可 以 尽量 将 代码 以 函数 形式 编写 。 


1.4.4 ”综合 案例 


本 小 节 我 们 将 结合 前 面 的 地 震 例 子 来 综合 练习 一 下 本 章 所 学 的 变量 和 函数 的 基本 知 
识 。 在 这 个 例子 中 用 到 的 函数 有 : 


readHTMLTable() # 读 入 HTML 格式 的 表格 。 
патеѕ() # 取 一 个 表格 各 列 的 名 称 。 
аѕ.питегіс() # 将 向 量 转换 为 数值 类 型 。 
as.Date() # 将 向 量 转换 为 时 间 格 式 。 


ертар(), веі воовіетар(), веот роіпі), орі) # 这 4 个 函数 组 合用 于 画图 。 

在 这 个 例子 中 ， 字 符 向 量 有 url、c(1,3,4)，c('date','lan','lon') 等 ;， 数值 向 量 有 data$lan 和 
data$lon 等 。R 程序 的 所 有 的 中 间 结 果 都 保存 在 变量 中 , 读者 可 以 直接 输入 变量 名 称 并 回 车 ， 
即 可 看 到 该 变量 保存 的 数据 ， 如 下 例 : 

> data$lan[1:5] #[] 中 表示 取向 量 data$lan 的 第 1 到 5 个 元 素 。 

> 25.10 32.30 40.90 31.80 24.41 


1.5 本 章 源 代码 详解 及 小 结 


每 章 的 重要 程序 源 代码 都 会 详细 注释 ， 供 读者 进一步 学 习 ， 以 提高 编程 能 力 ， 所 有 源 
代码 的 电子 版 都 通过 网 站 发 布 〈 参 看 前 言 )， 方 便 读 者 拷贝 运行 。 


1.5.1 41-1 
library(ggplot2) # 加 载 ggplot2 包 。 
library(ggmap) # 加 载 ggmap 包 。 
library(XML) # 加 载 XML 包 。 


library(maps) # 加 载 maps 包 。 
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library(mapproj) # 加 载 mapproj 包 。 


# 将 数据 所 在 网 址 作为 字符 串 存 入 ші 变量 中 。 
url <- 'http://data.earthquake.cn/datashare/globeEarthquake_csn.html'; 


# 对 该 网 页 内 容 进 行 解析 ， 读 取 其 中 的 所 有 表格 ， 并 存 入 tables 变量 中 。 
tables <- readHTMLTable(url,stringsAsFactors = FALSE) ; 


# 取出 我 们 所 需 的 第 6 个 表格 ， 存 入 变量 raw。 
гау <- tables[[6]] ; 


# 查 看 表格 的 第 一 行 数据 ， 这 里 不 显示 结果 。 


raw[1,] 


# 只 保留 时 间 、 经 度 、 纬 度 这 三 列 数据 ， 并 存 入 变量 ааа. 
data <- Taw[ ,c(1,3,4)] ; 


# 修改 дага 包含 的 表格 各 列 的 名 称 为 'date'、'lan' 和 'lon'。 


names(data) <- c('date','lan','lon') ; 


# 将 经 度 (data$lan) 和 纬度 (data$lon) 的 数据 类 型 用 函数 as.numeric〈) 转换 为 数值 类 型 
data$lan <- as.numeric(data$lan) ; 
data$lon <- as.numeric(data$lon) ; 


# 将 时 间 (data$date) 的 数据 类 型 用 函数 as.Date O 转换 为 时 间 类 型 ("%Y-%m-%d'")。 
data$date <- as.Date(data$date, "%Y-%m-%d"); 
# 用 ggmap 包 读 取 地 图 (该 地 图 中 心 为 'china'"， 放 大 4 倍 ， 地 图 类 型 为 地 形 图 ， 范 围 
为 整个 图 形 设 备 ) + 截 加 散 点 图 〈 散 点 数据 来 源 于 data 数据 框 ， 以 数据 经 纬度 作为 坐标 值 ， 
散 点 颜色 为 红色 ， 透 明度 为 0.7， 图 解 位 置 无 )。 
ggmap(get_googlemap(center= china, zoom=4, maptype='terrain', extend='device )+ 
geom_point (data=data, aes(x=lon,y=lan), colour='red', alpha=0.4)+ 
opts(legend.position="none"); 


1.5.2 例 1-2 
library (igraph); # 加 载 igraph 包 。 


# 根据 Barabasi-Albert 模型 生成 一 个 网 络 , 该 网 络 包 括 100 个 节点 , 每 次 生成 时 出 现 一 
条 边 〈m=1)。 变 量 g 是 一 个 对 象 〈 参 见 第 七 章 )， 包 含 了 这 个 网 络 的 所 有 信息 。 
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g <- barabasi.game (100, m=1); 


# 绘制 网 络 图 。 

plot( g, # 画图 的 对 象 是 g。 

vertex.size=4, # 顶点 的 大 小 设置 为 4。 
vertex.label=NA, # 顶点 的 标签 设置 为 无 。 
edge.arrow.size=0.1, # 点 之 间 连 线 的 箭头 大 小 设置 为 0.1。 
edge.color="grey40", # 点 之 间 连 线 的 颜色 设置 为 灰 度 。 
layout=layout.fruchterman.reingold, # 设置 整体 的 布局 方式 。 
vertex.color="red", # 顶点 的 颜色 设置 为 红色 。 
frame=TRUE); # 绘图 包括 整体 边框 。 


注意 : 这 里 的 plot 函数 并 不 是 基础 包 中 的 那个 plot 函数 ,为 了 达到 调用 统一 ,这 个 plot 
函数 用 范 型 实现 ， 也 就 是 一 个 统一 的 接口 ， 其 底层 会 调用 plot.igraph 具体 完成 画图 功能 。 


1.5.3 4 1-3 
library(quantmod) # 加 载 quantmod 包 。 


# getSymbols 函数 自动 连接 Yahoo 数据 源 ， 必 须 保 证 网 络 连 接 正常 。 读 取 的 数据 源 是 
SSEC (上 证 指数 的 Yahoo 代码 )， 时 间 范 围 是 从 '2011-01-01' 到 '2012-07-13'. 
getSymbols('^SSEC', from = '2011-01-01', (0='2012-07-137) 


# 得 到 的 数据 保存 在 SSEC 这 个 对 象 中 ， 查 看 表格 的 第 一 行 数据 ， 这 里 不 显示 结果 。 
SSEC[1,] 


# 绘图 K 线 图 ， 时 间 是 最 近 的 4 个 月 ， 主 题 使 用 白色 螨 烛 图 ， 不 使 用 其 他 的 技术 指标 
(ТА). 


candleChart (last(SSEC,'4 months ), theme=chartTheme('white'), TA=NULL) 


# 添加 MACD 指标 ， 使 用 默认 参数 。 
addMACD() 


注意 : 数据 下 载 是 从 1 到 7 月 ， 共 7 个 月 ， 但 是 作 图 只 作 4 到 7 月 近 4 个 月 的 结果 ; 
下 载 的 数据 必须 包括 作 图 的 数据 的 时 间 范 围 ， 否 则 系统 会 自动 调整 为 显示 下 载 数据 的 时 间 
范围 ， 不 会 报错 。 
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1.5.4 {1-4 


(1) 课题 背景 


高 山 等 人 中 通过 多 任务 学 习 的 方法 在 12 种 癌症 中 寻找 癌症 共同 发 病 基因 (common 
cancer gene)。 数 据 来 自 的 12 组 基因 芯片 (型 号 都 来 自 Affymetrix 公司 的 Human Genome U133 
系列 )， 分 别 对 应 12 种 常见 癌症 ， 每 组 数据 都 有 疾病 和 对 照 〈 正 常 ) 样本 不 等 。 多 任务 学 
习 算 法 初步 从 22 215 个 基因 〈 探 针 组 ) 中 筛选 了 4993 个 ， 又 通过 权重 分 析 最 终 得 到 了 72 
个 共同 发 病 基因 。 下 一 步 的 分 析 集 中 在 对 4993 和 73 两 个 基因 列表 的 基因 进行 基因 本 体 论 
(Gene Ontology, GO) 分 析 。 该 项 目的 整体 介绍 详 见 第 五 章 。 

GO 分 析 包 括 : 把 基因 列表 提交 到 Gorilla 网 站 (http://cbl-gorilla.cs.technion.ac.il/) ， 就 
可 以 得 到 这 组 基因 对 应 的 GO 术语 (егт) 的 列表 ， 简 称 GO 列表 。 最 后 ， 通 过 REVIGO 
网 站 〈 由 Gorilla 网 站 自动 跳 转 ) 计算 这 些 GO 术语 之 间 的 关系 ， 并 将 结果 用 图 形 显 示 ， 给 
研究 人 员 提 供 进一步 分 析 的 线索 。 需 要 注意 的 是 ，REVIGO 网 站 来 显示 关系 图 的 时 候 ， 一 
方面 会 受到 服务 器 和 网 络 的 影响 ， 而 且 用 户 不 能 根据 自己 的 需要 详细 设 定 显示 的 参数 。 因 
此 ВЕУІСО 网 站 在 显示 关系 图 的 同时 ， 输 出 相应 的 R 语言 绘图 代码 ， 用 户 下 载 后 可 以 非常 
方便 地 在 本 地 作 图 ， 充 分 利用 了 R 的 强大 绘图 功能 。 


(2) 课题 实现 


首先 从 本 书 的 电子 资源 〈 见 附录 ) 获取 基因 列表 文件 gene_list1.txt; 然后 到 GOrilla 网 
站 提交 这 个 文件 ， 在 默认 参数 下 运行 【Search Enriched Go terms]. 在 结果 页 面 可 以 看 到 GO 
列表 。 点 击 【Visualize output in REVIGO]】， 网 页 自动 跳 转 到 REVIGO 网 站 ， 点 击 【Start 
Revigo】， 就 可 以 看 到 GO 术语 (仅仅 包括 Proces 有 关 的 所 有 术语 ) 之 间 的 关系 图 。 最 后 
A [Make К script for plotting】 下 载 R 代码 ， 本 地 运行 ， 就 可 以 得 到 图 1-5 的 结果 。 


(3) 源 代码 详细 注解 


library(ggplot2); # 加 载 ggplot2 包 。 

library(scales); # 加 载 scales 包 。 

# 导入 数据 ， 生 成 一 个 矩阵 格式 的 对 象 revigo.data 保存 所 有 数据 ， 每 行 代表 一 个 聚 类 后 
的 GO 术语 ， 各 列 依次 为 : GO 术语 的 ID、 文 字 描述 、 百 分 比 频 率 、X 轴 坐 标 、Y 轴 坐 标 等 。 

геуіво.патеѕ <- c("term_ID", "description", "frequency_%", "plot_ Х", "plot_Y", 
"plot_size", “logl0_p_value", "uniqueness", "dispensability"); 

revigo.data <- rbind(c("GO:0009698", "phenylpropanoid metabolic process", 0.024, 
1.380, -8.143, 3.438, -6.7645, 0.675, 0.000), 

с("СО:0021722", "superior olivary nucleus maturation", 0.000, -4.773, 3.914, 0.845, 
-3.5935, 0.874, 0.000), 

с("СО:0019748", "secondary metabolic process", 0.081, -6.414, 0.228, 3.966, -5.0550, 
0.909, 0.007), 
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c("GO:0042440", "pigment metabolic process", 0.324, -0.765, 0.844, 
0.909, 0.009), 


4.568, -4.3893, 


c("GO:0051299", "centrosome separation", 0.001, 0.901, -5.814, 1.771, -3.0482, 0.902, 


0.012), 

с("СО:0052695", "cellular glucuronidation", 0.000, 6.070, -2.020, 
0.667, 0.023), 

с("С0:0042501", "serine phosphorylation of STAT protein", 0.001, 
1.944, -3.5935, 0.760, 0.025), 

c("GO:0016101", "diterpenoid metabolic process", 0.005, -4.590, -4.132, 
0.763, 0.028), 

с("СО:0090313", "regulation of protein targeting to membrane", 0.000, 
1.230, -3.5935, 0.822, 0.133), 


c("GO:0010225", "response to UV-C", 0.001, 6.233, 3.496, 2.121, 


0.171), 


1.398, -6.7645, 


4.269, 4.220, 


2.772, -3.5346, 


1.015, 6.202, 


-3.1409, 0.864, 


с("СО:0006063", "uronic acid metabolic process", 0.025, 6.023, -2.786, 3.461, 


-5.4473, 0.697, 0.408), 

с("СО:0006069", "ethanol oxidation", 0.015, 5.585, -3.328, 3.222, 
0.427), 

с("С0:0006720", "іѕоргепоіа metabolic process", 0.401, -3.931, -4.897, 
0.775, 0.481), 

с("СО:0021819", "layer formation іп cerebral cortex", 0.000, -4.381, 
-3.5935, 0.845, 0.559), 

с("СО:0001523", "retinoid metabolic process", 0.003, -4.238, -4.361, 
0.741, 0.595), 

с("СО:0090314", "positive regulation of protein targeting to membrane", 
6.348, 0.301, -3.5935, 0.827, 0.598), 

с("СО:0052697", "xenobiotic glucuronidation", 0.000, 5.854, -0.744, 
0.570, 0.617)); 

# 以 下 都 是 数据 格式 的 转换 。 

one.data <- data.frame(revigo.data); # 矩阵 格式 转换 为 数据 框 格式 。 

names(one.data) <- revigo.names; # 改变 各 列 名 称 。 

# 只 保留 x、y 坐标 都 不 为 null， 即 有 数值 的 行 。 


-3.1555, 0.762, 


4.660, -3.1707, 


4.333, 1.740, 


2.480, -3.6819, 


0.000, 0.506, 


1.114, -6.9626, 


one.data <- one.data [(one.data$plot Х != "null" & one.data$plot Y != "null"), ]; 


one.data$plot_X <- as.numeric( as.character(one.data$plot XI) ); 
# factor 类 型 转 字 符 ， 再 转 数 字 。 


one.data$plot Y <- as.numeric( as.character(one.data$plot Y) );# 同上 。 
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one.data$plot_size <- as.numeric( as.character(one.data$plot _ size) ); # 同上 。 
one.data$log10_p_value <- as.numeric( as.character(one.data$log10_p_value) );# 同上 。 
one.data$frequency <- аѕ.питегіс( as.character(one.data$frequency) ); # 同上 。 
опе.аѓа$ипідиепеѕѕ <- аѕ.питегіс( as.character(one.data$uniqueness) ;# 同上 。 


one.data$dispensability <- as.numeric( as.character(one.data$dispensability) );# 同上 。 


# 以 下 使 用 ggplot 绘图 。 

pl <- ggplot( data = one.data ); # 建立 基本 绘图 对 象 ,将 绘图 所 需 数据 传递 给 该 对 象 。 

pl <- pl + geom_point( aes( plot_X, plot_Y, colour = log10_p_value, size = plot_size), alpha 
=I(0.6) ) + scale_area(); # 确定 X 轴 、Y 轴 、 颜 色 、 大 小 和 透明 度 的 映射 规则 。 

pl <- pl + scale_colour_gradientn (colours = c("blue", "green", "yellow", "red"), limits = 
с( min(one.data$log10_p_value), 0); # 确定 颜色 过 度 的 标 度 控制 。 

pl <- pl + geom_point( aes(plot_X, plot_Y, size = plot_size), shape = 21, fill = "transparent", 
colour = I (alpha ("black", 0.6)) + scale_area(); # 添加 点 图 对 象 ， 并 设置 颜色 。 

pl <- pl + scale_size( range=c(5, 30) + ћете Ь№(); # 设置 点 的 大 小 标 度 。 

ex <- one.data [ one.data$dispensability < 0.15, ]; # 数据 取 子 集 ( 只 要 最 后 一 列 小 于 
0.15 的 )。 

pl <- pl + geom text( data = ех, аеѕ(рІої Х, plot_Y, label = description), colour = 
I(alpha("black", 0.85), size = 3 ); # 添加 文字 对 象 并 设置 颜色 和 大 小 。 

pl <- pl + labs (у = "semantic space х", х = "semantic space у"); # 添加 XX 轴 和 YY 轴 说 明 。 

pl <- pl + opts(legend.key = ћете Ыапк()); # 添加 图 例 说 明 。 

# 以 下 是 设置 X 轴 和 YY 轴 的 刻度 限 。 

one.x_range = max(one.data$plot_X)—min(one.data$plot_X); 

one.y_range = max(one.data$plot_Y)—min(one.data$plot_Y); 

p1 < -p1 +xlim(min(one.data$plot_X)—one.x_range / 10,max(one.data$plot_X) + one.x_range 
/ 10); 

р1<-р1 + ylim(min(one.data$plot_Y)—one.y_range / 10,max(one.data$plot_Y) + one.y_range 
/ 10); 

р1;# 执行 绘图 指令 。 

注意 : 数据 导入 方法 是 逐个 向 量 添加 ， 只 能 用 于 输入 很 少量 的 数据 ， 处 理 大 量 数据 的 
输入 需要 调用 函数 读 取 文 件 〈 见 第 七 章 ) ; 在 ggplot 绘图 过 程 中 ， 会 出 现 蓝 色 警告 信息 ， 
这 是 由 于 ggplot 版 本 升级 导致 ， 不 影响 最 终 画 图 结果 ， 所 以 读者 不 必 理 会 。 


1.5.5 .小 结 


通过 本 章 的 几 个 例子 ， 我 们 可 以 初步 了 解 R 的 编程 思维 ， 并 且 突 出 了 三 个 特点 : 
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(1) 从 数据 获取 到 处 理 分 析 ， 再 到 显示 输出 无 颖 连接 ， 快 捷 高 效 ; 
(2) 很 方便 地 与 其 他 软件 或 者 工具 接口 〈 见 例 1-4); 
(з) 熟练 掌握 各 种 数据 格式 及 其 转换 很 重要 ， 这 部 分 请 参看 第 七 章 。 
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生物 信息 学 是 利用 应 用 数学 、 信 息 学 、 统 计 学 和 计算 机 科学 等 方法 研究 生物 学 问题 的 
学 科 ， 其 研究 内 容 非 常 广泛 。 从 基本 的 序列 分 析 、 分 子 进化 和 比较 基因 组 学 ， 到 蛋白 质 结 
构 比 对 和 预测 ,再 到 计算 机 辅助 药物 设计 等 ,R 语言 都 能 发 挥 其 强大 的 数据 处 理 和 分 析 功 能 。 
生物 信息 学 已 经 成 为 了 R 语言 的 一 个 非常 重要 的 应 用 领域 ，R 语言 近年 来 的 迅猛 发 展 很 大 
程度 上 得 益 于 生物 信息 学 的 推动 。 以 下 一 代 测 序 为 核心 的 基因 组 学 的 爆发 对 生物 信息 数据 
的 处 理 和 分 析 提 出 了 更 高 的 要 求 ， 这 大 大 推动 了 R 和 Bioconductor 的 发 展 。 

为 了 用 少 而 精 的 内 容 让 读者 迅速 掌握 用 R 和 Bioconductor 处 理 生物 信息 数据 的 思维 和 
基本 技能 ， 本 书 自 第 三 章 开始 的 项 目 和 代码 都 集中 在 序列 分 析 和 基因 表达 分 析 两 个 非常 基 
础 和 典型 的 生物 信息 学 应 用 领域 。 在 介绍 这 些 项 目 和 代码 之 前 ， 我 们 在 本 章 简单 介绍 一 下 
所 需 的 生物 信息 学 基础 知识 ， 为 后 面 学 习 R 和 Bioconductor 打下 基础 。 

本 章 2.1 介绍 了 生物 学 的 核心 概念 一 一 中 心 法 则 , 生物 信息 的 数据 分 析 是 基于 这 个 核心 
概念 展开 的 ;2.2 在 详细 讲解 了 测序 技术 ， 特 别 是 下 一 代 测 序 的 基础 上 ， 介 绍 了 序列 分 析 的 
主要 内 容 ; 2.3 则 是 介绍 了 基因 表达 分 析 ; 2.4 对 生物 信息 学 的 整体 研究 思路 进行 了 小 结 。 
由 于 本 章 的 基本 概念 大 部 分 来 自己 发 行 的 教科 书 或 专业 参考 书 ， 限 于 篇 幅 不 再 一 一 列举 ， 
重点 参考 的 几 本 书 有 东南 大 学 孙 啸 等 编著 的 《生物 信息 学 基础 》 暨南 大 学 许 忠 能 编著 的 《 生 
物 信息 学 》 和 浙江 大 学 樊 龙 江 编 著 的 《生物 信息 学 札记 》。 对 生物 信息 学 有 兴趣 的 读者 ， 可 
以 阅读 上 述 参考 书 进 一 步 学 习 。 


2.1 中 心 法 则 一 一 生物 信息 流 


2.1.1 生物 大 分 子 


生物 大 分 子 是 指 作 为 生物 体内 主要 活性 成 分 的 各 种 分 子 量 达到 上 万 或 更 大 的 有 机 分 
子 ， 主 要 包括 核酸 与 蛋白 质 ， 另 外 还 有 多 糖 、 脂 类 和 它们 相互 结合 的 产物 。 生 物 大 分 子 是 
生物 单 分 子 以 及 其 他 有 机 物 经 过 聚合 而 成 的 ， 如 蛋白质 的 组 成 单位 是 氨基 酸 ， 核 酸 的 组 成 
单位 是 核 苷 酸 。 从 化 学 反应 角度 来 看 ， 和 蛋白 质 是 由 a-L- 氨 基 酸 脱水 缩合 而 成 的 ， 核 酸 是 由 
味 叭 和 喀 啶 类 核 苷 酸 脱 水 缩合 而 成 。 生 物 大 分 子 是 生物 体 的 重要 组 成 成 分 ， 不 但 分 子 量 大 ， 
其 结构 和 功能 也 比较 复杂 。 生 物 信息 学 研究 主要 围绕 脱氧 核糖 核酸 (Deoxyribonucleic acid, 
DNA)、 核 糖 核酸 (Ribonucleic acid, RNA) 和 和 蛋白质 (Protein) 三 类 生物 大 分 子 展开 。 
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(1) DNA 


DNA 是 脱氧 核糖 核 苷 酸 ， 通 过 3' ,5' -磷酸 二 了 酯 键 彼 此 连接 起 来 的 多 聚 体 ， 一 般 存在 于 
细胞 核 、 叶 绿 体 和 线粒体 内 ， 负 责 生 物体 遗传 信息 的 储存 。 脱 氧 核糖 核 苷 酸 由 三 部 分 组 成 ; 
含 氮 碱 基 、 五 碳 糖 〈 脱 氧 核糖 ) 和 磷酸 基 团 。 含 氮 碱 基 又 可 分 为 四 类 :， 腺 味 叭 (Adenine， 
缩写 为 A)、 胸腺 喀 喧 (Thymine, 缩写 为 T)、 胞 喀 啶 (Cytosine, 缩写 为 C) 和 鸟 味 叭 (Guanine， 
缩写 为 G)。A、T、C 和 С 不 但 表示 对 应 的 碱 基 ， 还 可 以 表示 对 应 的 核 昔 酸 ， 因 此 DNA 的 
一 级 结构 〈 核 苷 酸 的 排列 次 序 ) 可 以 表示 为 一 条 由 A、T、C 和 С 组 成 的 序列 。DNA 的 二 
级 结构 是 指 两 条 长 度 相 同 、 方 向 相反 的 多 聚 脱氧 核糖 核 苷 酸 链 ， 根 据 碱 基 互 补 配对 原则 
(A=T ，C=G) 平行 围绕 同一 “想象 中 ”的 中 心 轴 形 成 的 双 螺旋 结构 。DNA 在 二 级 结构 的 
基础 上 ， 通 过 进一步 卷曲 和 折 登 ， 形 成 超 螺旋 的 三 级 结构 〈 图 2-1)。 在 真 核 生 物 中 ，DNA 
与 组 蛋白 结合 形成 核 小 体 结构 ， 核 小 体 是 染色 质 的 基本 结构 单位 ， 它 可 以 进一步 卷曲 ， 再 
ННІ 组 蛋白 在 内 侧 相互 接触 ， 形 成 直径 为 30nm 的 螺旋 简 〈Solenoid) 结构 ， 组 成 染色 质 
纤维 。 在 形成 染色 单 体 时 ， 螺 旋 简 再 进一步 卷曲 和 折 登 ， 形 成 纤维 状 及 襟 状 结构 ， 最 后 形 
成 棒状 的 染色 体 。 多 个 层次 的 卷曲 和 折 苹 使 长 度 近 lm 的 ОМА 双 螺 旋 ， 压 缩 了 8000 多 售 ， 
成 功 地 容纳 在 直径 仅 数 微米 的 细胞 核 中 。 

染色 体 的 结构 


250 nm 染色 质 丝 


ИШИН Дек. 
700 nm 
1400 пт 


图 2-1 DNA 分 子 的 多 级 结构 〈 此 图 片 来 自 互联 网 ) 


(2) RNA 


RNA 与 DNA 同属 核酸 , 区 别 在 于 RNA 单 体 是 核糖 核 昔 酸 ， 由 碱 基 、 核 糖 和 磷酸 构成 。 
КМА 的 碱 基 主 要 有 4 种 ， 即 A、U (Uracil, Ж). CHG, HF, U 取代 了 DNA 中 的 
T 而 成 为 RNA 的 特征 碱 基 。RNA 一 般 为 单 链 长 分 子 ， 不 形成 双 螺 旋 结构 ， 但 是 很 多 КМА 
也 需要 通过 碱 基 配 对 原则 形成 一 定 的 二 级 结构 乃至 三 级 结构 来 行使 生物 学 功能 。RNA 的 碱 
基 配 对 规则 和 DNA 基本 相同 ,但 除了 A-U、G-C 配对 外 ，G-U 也 可 以 配对 。RNA 一 般 存 
在 于 细胞 质 和 细胞 核 内 ， 主 要 负责 生物 遗传 信息 的 传递 ， 后 来 还 发 现 了 一 些 RNA 具有 酶 的 
活性 以 及 参与 基因 表达 调控 ， 而 且 对 一 部 分 病毒 而 言 ，RNA 是 其 唯一 的 遗传 物质 。RNA 根 
据 结构 功能 的 不 同 ， 主 要 分 为 三 类 , 即 tRNA (转运 RNA)、rRNA (核糖 体 RNA) 和 mRNA 
(信使 RNA)。mRNA 是 DNA 转录 的 产物 , 又 是 合成 蛋白 质 的 模板 (图 2-2); tRNA 是 mRNA 
上 碱 基 序列 ( 即 遗 传 密码 子 ) 的 识别 者 和 氮 基 酸 的 转运 者 ; ТЕМА 是 组 成 核糖 体 的 组 分 ， 而 
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核糖 体 是 蛋白 质 合 成 的 场所 。 
(3) 蛋白 质 


蛋白 质 是 由 氨基 酸 分 子 呈 线性 排列 所 形成 ， 相 邻 氮 基 酸 残 基 的 羧基 和 氨基 通过 肽 键 连 
接 在 一 起 。 目 前 ， 在 绝 大 多 数 已 鉴定 的 天 然 蛋 白质 中 发 现 的 氨基 酸 有 20 种 ， 它 们 是 甘氨酸 
(Glycine, #5 G) Р (Alanine, 4850) А). WAR 〈Valine， 缩 写 为 V)、 亮 氨 酸 
(Leucine， 缩 写 为 L) FAAR 〈Isoleucine， 缩 写 为 D, AAR (Phenylalanine, 45 
ЖЕ), BAR (Proline, Я#® 5 Н). EAR (Тгуріорћапе, 495 3) У). ZAR (Serine, 
缩写 为 S WAR 〈Tyrosine， 缩 写 为 Y)、 半 胱 氨 酸 〈Cysteine， 缩 写 为 С). НЕ 
(Methionine， 缩 写 为 M)、 天 冬 酰胺 (Asparagine， 缩 写 为 №). #1 〈Glutamine， 缩 
写 为 Q HAR Threonine, 缩写 为 Т). < 00 Аѕрагіс acid, 缩写 为 D)、 谷 氨 酸 (Glutamic 
acid, 缩写 为 E)、 赖 氨 酸 (Lysine, 缩写 为 K)、 精 氨 酸 (Argnine, 缩写 为 R) 和 组 氨 酸 (Hlstidine， 
缩写 为 H)。 大 多 数 的 蛋白 质 都 折 益 为 一 个 特定 的 三 维 结构 ， 生 物化 学 家 常常 用 以 下 四 个 级 
别 来 表示 蛋白质 的 结构 (图 2-2): 

。 一 级 结构 : 组 成 蛋白 质 多 肽 链 的 氨基 酸 排列 次 序 。 

。 二 级 结构 : 依靠 不 同 氨基 酸 之 间 的 С=О 和 N-H 基 团 间 的 氧 键 形成 的 稳定 结构 ,主要 
为 a йй їп В #76. 

。 三 级 结构 : 通过 多 个 二 级 结构 元 素 在 三 维 空间 的 排列 所 形成 的 一 个 蛋白 质 分 子 的 三 
维 结构 ， 是 单个 蛋白 质 分 子 的 整体 形状 。 蛋 白质 的 三 级 结构 大 都 有 一 个 疏水 核心 来 稳定 结 
构 ， 同 时 具有 稳定 作用 的 还 有 离子 键 、 氧 键 和 二 硫 键 等 。 常 常 可 以 用 “ 折 登 ”一 词 来 表示 
“三 级 结构 ”。 

。 四 级 结构 : 用 于 描述 由 不 同 多 肽 链 《〈 亚 基 ) 间 相 互 作用 形成 具有 功能 的 蛋白 质 复 合 
物 分 子 的 形态 。 


蛋白 质 的 结构 Фа 


(血红 蛋白 ) Ср) 
6 47 = 血红 素 
в э Ж А зд B 多 肽 
《 三 级 结构 
э” $ a, | a 多 及 


二 级 结构 


82-2 蛋白质 分 子 的 多 级 结构 〈 此 图 片 来 自 互联 网 ) 


蛋白 质 是 生命 活动 的 执行 单位 ， 参 与 了 生命 活动 的 每 一 个 进程 。 酶 是 最 常见 的 一 类 和 蛋 
白质 ， 它 们 催化 生物 化 学 反应 ， 尤 其 对 于 生物 体 的 代谢 至 关 重 要 。 除 了 酶 之 外 ， 还 有 许多 
结构 性 或 机 械 性 蛋白 质 ， 如 肌肉 中 的 肌 动 蛋白 和 肌 球 蛋白 以 及 细胞 骨架 中 的 微 管 蛋白 《〈 参 
与 形成 细胞 内 的 支撑 网 络 以 维持 细胞 外 形 )。 另 外 一 些 蛋白 质 则 参与 细胞 信号 传导 、 免 疫 反 
应 、 细 胞 黏附 和 细胞 周期 调控 等 。 
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2.1.2 ”中心 法 则 


在 三 大 分 子 中 ，DNA 是 遗传 信息 的 储存 者 ， 它 通过 自主 复制 得 以 延续 ， 通 过 转录 生 
成 信使 RNA， 进 而 翻译 成 蛋白 质 来 实现 生命 活动 ， 这 就 是 生物 学 中 的 中 心 法 则 Central 
dogma)。1957 年 弗朗西斯 : 克 里 克 最 初 提出 的 中 心 法 则 是 : DNA 一 RNA 一 蛋白 质 。 它 说 
明 遗 传 信息 在 不 同 的 大 分 子 之 间 的 传递 都 是 单 向 的 , 不 可 逆 的 , 只 能 从 DNA 到 RNA (HE 
ж), № RNA 到 和 蛋 白质 (翻译 )。 而 后 ， 这 两 种 形式 的 信息 传递 方式 在 所 有 生物 的 细胞 
中 都 得 到 了 证 实 。 i 

1970 FÆR. D T. RARA. EREE E RNA 致癌 病毒 中 发 现 了 它们 在 宿主 
细胞 中 的 复制 过 程 是 先 以 病毒 的 RNA 分 子 为 模板 合成 DNA 分 子 ， 再 以 DNA 分 子 为 模板 
合成 新 的 病毒 RNA。 前 一 个 步骤 后 来 被 称 为 反 转 录 ， 是 最 初 的 中 心 法 则 提出 后 的 补充 。 因 
此 克 里 克 在 1970 年 重申 了 中 心 法 则 的 重要 性 ， 提 出 了 更 为 完整 的 图 解 形式 (图 2-3) 。 中 心 
法 则 是 现代 生物 学 中 最 重要 最 基本 的 规律 之 一 ， 在 探索 生命 现象 的 本 质 及 普遍 规律 方面 起 
到 了 巨大 的 作用 ， 是 现代 生物 学 的 理论 基石 ， 生 物 信息 学 的 研究 基本 上 围绕 中 心 法 则 展开 。 
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(1) 基因 


基因 是 含有 特定 遗传 信息 的 DNA 片段 ， 是 遗传 物质 的 最 小 功能 单位 。 一 个 基因 不 仅 包 
含 编码 蛋白 质 肽 链 或 RNA 的 核酸 序列 ， 还 包含 为 保证 转录 所 必需 的 调控 序列 、5” 端 非 翻 
译 序列 、 内 含 子 以 及 3” 端 非 翻 译 序列 等 所 有 的 ОМА 序列 (图 2-4)。 基 因 分 为 三 类 : 第 一 
类 编码 蛋白 质 ， 具 有 转录 和 翻译 功能 ， 也 就 是 后 面 提 到 的 编码 序列 ， 第 二 类 是 只 有 转录 功 
能 而 没有 翻译 功能 的 基因 , 例如 tRNA 基因 和 RNA 基因 ; 第 三 类 是 不 转录 的 基因 ， 它 对 基 
因 表达 起 调节 控制 作用 ， 例 如 启动 子 和 操纵 子 。 
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(1) 原核 基因 的 结构 


韭 编码 区 I 一 一 一 一 织 码 区 一 一 一 一 一 *!4 一 非 编码 区 一 
1 1 
与 RNA 聚 合 ! : 
酶 结合 位 点 | ' 


(2) 真 核 基 因 的 结构 


一 一 编码 区 == мааа 编码 区 一 


i 非 编码 区 一 

1 | 
与 RNA 聚 合 | 
酶 结合 位 点 ! | 
' 

ШИ 外 显 子 ЕЧ aar 

2-4 ”基因 的 结构 〈 此 图 片 来 自 互 联网 ) 

(2) 基因 组 


基因 组 ,一 般 的 定义 是 单 倍 体 细胞 中 的 全 部 基因 (曾经 认为 只 有 编码 序列 )。 后 来 ， 大 
量 基因 组 测序 的 结果 发 现 编码 序列 (Coding Sequence，CDS)， 又 称 编码 区 (Coding region) 
只 占 整个 基因 组 序列 的 很 小 一 部 分 。 因 此 ， 基 因 组 应 该 指 单 倍 体 细胞 中 包括 编码 序列 和 非 
编码 序列 在 内 的 全 部 DNA。 更 完备 的 定义 是 : 核 基因 组 是 一 个 单 倍 体 细胞 核 内 的 全 部 
DNA， 线 粒 体 基因 组 是 一 个 线粒体 所 包含 的 全 部 DNA， 叶 绿 体 基因 组 是 一 个 叶绿体 所 包含 
的 全 部 DNA。 


(3) 转录 组 


转录 组 ， 广 义 上 指 在 某 一 生理 或 实验 条 件 下 ， 由 单个 细胞 、 组 织 或 个 体 等 所 产生 的 所 
有 转录 产物 的 集合 ， 包 括 mRNA, rRNA, tRNA 及 非 编码 ВМА; 狭义 上 是 指 所 有 mRNA 
的 集合 。 在 实际 工作 中 ， 如 果 不 特别 强调 ， 一 般 转 录 组 就 是 指 mRNA。 转 录 组 代表 了 样本 
(细胞 、 组 织 等 ) 整体 的 基因 表达 水 平 ， 因 此 也 被 称 为 “表达 谱 ”， 通 常 采 用 基因 芯片 和 
КМ№А-ѕед С 2.2.2) 技术 来 研究 。 


(4) 蛋白 质 组 


蛋白 质 组 是 指 一 个 基因 组 所 编码 的 全 部 蛋白 质 。 蛋 白质 组 学 在 大 规模 水 平 上 研究 蛋白 
质 的 特征 ， 包 括 所 有 有 蛋 白质 的 表达 水 平 、 翻 译 后 的 修饰 、 蛋 白质 与 蛋白 质 相 互 作用 等 ， 由 
此 从 蛋白 质 水 平 获得 关于 疾病 发 生 、 细 胞 代谢 等 生命 过 程 的 整体 而 全 面 的 认识 。 蛋 白质 组 
是 真正 的 基因 表达 谱 ， 其 最 常用 的 研究 手段 是 质谱 。 
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2.1.4 非 编 码 RNA 和 microRNA 


转录 组 中 有 一 些 КМА 不 翻译 成 蛋白 质 ， 而 是 在 ВМА 水 平 上 行使 各 自 的 生物 学 功能 ， 
被 称 作 非 编码 RNA (non-coding RNA，ncRNA)。 非 编码 RNA 从 长 度 上 来 划分 可 以 分 为 三 
ж: 小 于 50 nt 的 small RNA, 包括 miRNA, siRNA 和 piRNA 2; 50 nt 到 500 nt, 包括 rRNA, 
tRNA, snRNA 和 snoRNA 5; 大 于 500 nt， 包 括 长 的 mRNA-like 的 非 编码 RNA， 长 的 不 
带 polyA 尾巴 的 非 编 码 КМА 等 。 

microRNAs (miRNAs) 是 在 真 核 生 物 中 发 现 的 一 类 内 源 性 的 具有 调控 功能 的 非 编 码 
RNA， 其 大 小 长 约 20-25 IZER. RAR miRNAs 是 由 较 长 的 初级 转录 物 经 过 一 系列 核 
酸 酶 的 前 切 加 工 而 产生 的 ， 随 后 组 装 进 RNA 诱导 的 沉默 复合 体 ， 通过 碱 基 互补 配对 的 方式 
识别 靶 mRNA， 并 根据 互补 程度 的 不 同 指导 沉默 复合 体 降解 靶 mRNA RABDARE mRNA 
的 翻译 。 最 近 的 研究 表明 miRNA 参与 调节 各 种 各 样 的 生命 活动 ， 包 括 发 育 、 病 毒 防御 、 造 
血 、 器 官 形成 、 细 胞 增殖 和 凋 亡 、 脂 肪 代谢 等 。 


2.2 测序 与 序列 分 析 


2.24 ОМА 测序 技术 


DNA 测序 (DNA sequencing)， 简 单 来 说 就 是 确定 四 种 核 苷 酸 残 基 (A、T、C 和 G) 
的 排列 顺序 。DNA 测序 技术 是 20 世纪 生物 学 研究 中 最 重要 的 发 明之 一 , 它 的 出 现 极 大 地 推 
动 了 生物 学 的 发 展 ， 使 得 研究 者 们 能 从 基因 乃至 基因 组 水 平 更 精细 地 解析 生命 现象 。 测 序 
技术 最 早 可 追溯 到 1954 年 ，Whitfeld 等 用 化 学 降解 的 方法 测定 多 聚 核糖 核 苷 酸 序列 。1977 
年 ，Sanger 等 发 明 的 双 脱 氧 链 终止 法 (Sanger 测序 法 ) 和 Gilbert кеенен днн 
功 实现 标志 着 第 一 代 ОМА 测序 技术 的 诞生 。 后 来 ， 由 于 Sanger 测序 法 既 简 便 又 快速 ， 实 
质 上 成 为 了 第 一 代 测 序 方法 的 代名词 ， 并 成 为 了 人 类 基因 组 计划 的 主要 测序 方法 。 

1985 年 Leroy Hood 实验 室 改进 了 Sanger 测序 法 , 采用 四 种 不 同 颜色 的 荧光 染料 来 标记 
四 种 双 脱 氧 核 音 酸 终 止 子 ， 代 替 了 之 前 的 同位 素 标记 引物 方法 ， 使 得 一 个 反应 管 中 可 同时 
进行 四 个 末端 终止 反应 ， 然 后 在 用 聚 丙烯 酰胺 凝 胶 分 离 终 止 反应 的 产物 后 ， 采 用 计算 机 荧 
光 检 测 系 统 读 取 四 种 核 音 酸 终止 子 ， 极 大 提高 了 测序 速度 。 次 年 ， 利 用 该 策略 ， 美 国 应 用 
生物 系统 (Applied Biosystems, ABI) 公司 ， 后 与 Invitrogen 公司 合并 为 Life Technologies, 
推出 第 一 款 半 自动 DNA 测序 仪 ABI 370。 随 后 的 测序 仪 采 用 毛细 管 电泳 替代 了 平板 凝 胶 电 
泳 以 取消 手工 上 样 ,加 快 了 分 析 的 速度 并 实现 自动 化 ,并 提高 了 通 量 。 这 种 改进 的 测序 仪 在 
人 类 基因 组 计划 中 发 挥 了 重要 作用 。 第 一 代 测 序 技术 的 测序 长 度 长 《可 超过 1kb) 与 低 误差 
率 等 优势 是 后 来 的 第 二 代 测 序 技术 所 无 法 比拟 的 ， 但 随后 几 十 年 的 改进 与 完善 ， 都 无 法 摆 
脱 其 对 电泳 技术 的 依赖 ， 致 使 它 难以 在 测序 成 本 、 速 度 与 通 量 上 有 质 的 飞跃 。 

为 了 提高 测序 的 效率 ， 进 一 步 降 低 成 本 ， 人 们 又 开发 了 第 二 代 测 序 技 术 ， 也 就 是 通常 
所 称 的 下 一 代 测 序 (Next Generation Sequencing，NGS)， 也 称 作 深 度 测序 或 高 通 量 测 序 。 
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第 二 代 测 序 的 核心 概念 就 是 高 通 量 ， 相 对 于 第 一 代 测 序 的 96 道 毛细 管 测序 ， 二 代 测 序 一 次 
实验 可 以 读 取 数 以 百 万 计 的 序列 。 但 是 第 二 代 测 序 技术 与 第 一 代 技 术 相 比 ， 测 序 片 段 短 ， 
误差 较 高 。 第 二 代 测 序 技术 读 取 长 度 根据 平台 不 同 从 25bp 到 4506р 不 等 ， 当 前 主流 产品 的 
误差 率 都 在 0.1% 以 上 。 主 流 的 测序 仪 有 Roche 公司 的 454，Tllumina 公司 的 Ilumina/Solexa 
和 ABI 公司 的 SOLID 等 。 第 二 代 测 序 技术 诞生 于 20 世纪 90 ERR, 2005 年 前 后 商业 化 ， 
是 当前 主要 的 测序 技术 。 

在 第 二 代 测 序 技术 中 ，454 测序 仪 测序 片段 最 长 ， 适 于 未 知 基因 组 从 头 测序 ， 搭 建 主体 
结构 ， 但 是 它 在 判断 连续 单 碱 基 重复 区 时 准确 度 不 高 ; 与 454 相 比 ，Illumina/Solexa 测序 仪 
通 量 高 、 片 段 短 、 成 本 低 ， 适 于 转录 组 、 小 基因 组 (例如 微生物 ) 的 从 头 测序 和 大 基因 组 
的 重 测序 等 多 个 应 用 领域 ; SOLiD 测序 仪 基于 双 碱 基 编 码 系统 ， 就 有 较 强 的 纠 错 能 力 以 及 
较 高 的 测序 通 量 ， 适 于 ChIP-seq、small RNA-seq 等 应 用 领域 ( 见 2.2.2)， 但 是 由 于 测序 片 
段 更 短 ， 限 制 了 其 在 基因 组 拼接 等 方面 的 广泛 应 用 。 三 种 测序 仪 中 ，Illumina 测序 仪 因 其 较 
高 的 性 价 比 和 较为 广泛 的 应 用 范围 ， 占 据 了 大 部 分 市 场 份额 。 

第 三 代 测 序 的 核心 概念 是 单 分 子 ， 它 通过 直接 监控 核 背 酸 在 DNA 或 КМА 单 分 子 链 上 
的 插入 来 测序 , 不 需要 进行 PCR 扩 增 。 这 样 不 仅 避免 了 РСК 扩 增 带 来 的 测序 误差 和 扩 增 偏 
{ (Bias)， 还 可 以 进一步 降低 成 本 。 而 且 第 三 代 测 序 在 保持 高 通 量 的 基础 上 ， 进 一 步 增加 
了 测序 长 度 ， 可 以 说 是 测序 的 终极 目标 。 主 流 的 测序 仪 有 Helicos Biosciences 公司 的 
HeliScope 系统 、 Pacific Biosciences 公司 的 PacBio RS 系统 .Oxford Nanopore 公司 的 GridION 
系统 等 。 当 前 ， 测 序 市 场 中 实际 应 用 的 产品 只 有 PacBio RS 系统 。 

除了 不 需要 扩 增 和 测序 长 度 大 大 增加 之 外 ， 第 三 代 测 序 技 术 还 具有 第 二 代 测 序 所 不 具 
备 的 两 个 优势 : 一 是 可 以 直接 测 RNA 序列 ， 大 大 降低 体外 逆转 录 产 生 的 系统 误差 ， 以 往 的 
一 代 、 二 代 测 序 都 是 通过 cDNA 而 间接 测量 RNA 序列 ， 二 是 根据 ОМА 聚合 酶 复制 A、T、 
С ЖП С 停顿 的 时 间 不 同 , 直接 测量 ОМА 序列 的 甲 基 化 。 当 前 第 三 代 测 序 普遍 存在 的 问题 是 
成 本 高 ， 测 序 误差 率 高 ， 因 此 还 没有 被 广泛 应 用 。 但 是 ， 第 三 代 测 序 技术 发 展 较 快 ， 通 过 
不 断 技术 改进 ， 已 经 达到 了 可 以 应 用 的 水 平 ，PacBio RS 系统 开始 在 测序 市 场 上 慢 慢 发 展 起 
来 。 评 价 一 个 测序 系统 的 优 劣 ， 往 往 看 重 测序 长 度 、 误 差 率 、 通 量 和 成 本 四 个 主要 因素 。 表 
2-1 是 第 一 、 二 、 三 代 测 序 技术 的 总 体 比较 ， 截 止 到 本 书写 作 完 成 ， 大 部 分 的 第 二 、 三 代 测 
序 技术 又 有 了 新 的 发 展 ， 因 此 下 表 各 类 指标 的 数据 仅 反映 同一 时 期 各 种 测序 系统 之 间 的 相对 
关系 。 


表 2-1 三 代 测序 技术 比较 


公司 主要 产品 ” 测序 方法 ”最 长 读 长 主要 优点 局 限 性 

ABI Gene Sanger 毛 >1000 读 长 长 ; 准确 度 高 ; E MER: 样品 制备 成 本 高 ; 
Analyzer 细 管 电 AFIRE RFJ 难以 实现 并 行 
3730 Ж 准确 率 高 

Косһе/454 GS FLX 边 合 成 700 二 代 测 序 仪 中 读 长 最 样品 制备 难 ; 重复 序列 和 多 
Titanium 边 测序 К: 高 通 量 ， 可 达 聚 序列 错误 高 ; 冲洗 试剂 
XL+ 700M 易 引 起 累计 错误 ; 仪器 费 

Illumina НіЅед2000 边 合成 150 高 通 量 (可 达 6006) ， 读 长 短 ，3? 端 测序 质量 低 


边 测序 
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( 续 表 ) 
公司 主要 产品 ”测序 方法 ”最 长 读 长 主要 优点 局 限 性 
ABI SOLID ЖЕШ 75 高 通 量 测序 运行 时 间 长 ; 读 长 短 ; 
5500 序 法 后 续 拼接 和 数据 分 析 困 
难 ; 仪器 较 昂 贵 
Heliscope НеііЅсоре 单 分 子 合 55 可 直接 测 RNA 和 甲 ” 读 长 短 ; 仪器 昂贵 ; 测序 
Biosciences 成 测序 基 化 的 DNA 序列 成 本 高 
Pacific PacBio 单 分 子 合 。 >1000 平均 读 长 长 ， 较 一 代 “不 能 高 效 地 将 ОМА 聚合 
Biosciences RS II 成 测序 测序 速度 快 ， 无 需 酶 加 到 测序 阵列 中 ; 误 
扩 增 差 率 高 ， 成 本 高 
Oxford GridION 纳米 孔 电 理论 上 可 实现 高 读 长 ;无 需 切断 的 核 苷 酸 可 能 被 读 错 
Nanopore 2000 信 号 测 全 长 荧光 标记 ， 电 信号 方向 ; 难于 制作 出 多 重 
序 读 取 平行 孔 的 装置 


222 第 二 代 测 序 技术 的 应 用 领域 


第 三 代 测 序 技术 是 当前 最 主要 的 测序 技术 ， 它 不 仅 带 来 了 测序 领域 的 革命 性 变化 ， 而 
且 与 现 有 手段 结合 开拓 了 很 多 新 的 应 用 领域 ， 如 染色 质 免疫 共 沉 淀 测序 (ChIP-seq)、 转 录 
组 测序 (RNA-seq) 和 甲 基 化 测序 (Methyl-seq〉 等 中。 这 些 新 应 用 领域 产生 的 数据 都 是 海 
量 的 ， 对 这 些 数据 的 处 理 需 求 大 大 促进 了 В 和 Bioconductor 的 发 展 。Bioconductor 针对 每 个 
领域 ， 都 有 大 量 的 软件 包 可 以 使 用 ， 其 中 最 典型 的 转录 组 测序 (RNA-seq) 方面 的 内 容 将 在 
后 面 的 章节 详细 介绍 后。 


(1) 全 基因 组 测序 与 重 测 序 


第 二 代 测 序 技术 在 发 展 初期 由 于 读 长 较 短 ， 使 其 在 基因 组 从 头 测序 领域 受到 限制 〈 低 
等 生物 除外 ， 如 细菌 )， 而 更 多 的 应 用 在 基因 组 重 测序 方面 。 基 因 组 重 测序 是 指 对 已 知 基因 
组 序列 的 物种 进行 不 同 个 体 或 亚 型 的 基因 组 测序 ， 一 方面 对 个 体 或 群体 进行 各 种 差异 性 分 
析 或 进化 分 析 ; 男 一 方面 可 以 对 已 测 基因 组 进行 重 注释 ， 纠 正 或 更 新 已 有 的 注释 信息 ， 发 
现 可 能 遗漏 的 潜在 基因 。 随 着 测序 技术 的 不 断 发 展 ( 例 如 基因 组 测序 的 Mate-pair 技术 )， 
第 二 代 测 序 技术 也 逐渐 应 用 于 高 等 动 植物 的 基因 组 从 头 测序 。 


(2) 转录 组 测序 


转录 组 研究 是 基因 功能 及 结构 研究 的 基础 和 出 发 点 ， 是 全 基因 组 测序 完成 后 首先 要 面 
对 的 问题 。 将 第 二 代 测 序 技术 应 用 于 转录 组 分 析 开 发 出 的 转录 组 测序 (RNA-seq) 技术 ， 能 
够 在 全 基因 组 范围 内 检测 基因 表达 情况 ， 为 更 广泛 地 了 解 细胞 的 功能 、 调 节 机 制 及 生化 代 
谢 途 经 提供 线索 。RNA-seq 的 技术 优势 将 在 第 六 章 详细 介绍 。 注 意 ， 这 里 的 转录 组 测序 ， 
只 是 测定 mRNA 序列 (狭义 的 转录 组 )， 不 包括 全 部 转录 产物 (广义 的 转录 组 )。 


(3) 小 RNA 的 测序 


第 二 代 测 序 男 一 个 广泛 应 用 的 领域 就 是 小 КМА (small RNA) 测序 ， 简 称 sSRNA-seq。 


Ш 36 RR 语言 与 Bioconductor 生物 信息 学 应 用 


small RNA 是 一 类 大 小 约 17-25 个 碱 基 的 单 链 小 分 子 RNA， 主 要 包括 miRNA, snoRNA 和 
piRNA 等 ,在 基因 表达 调控 等 方面 具有 重要 功能 ( 见 2.1.4)。 由 于 small RNA 序列 短 、 同 源 
性 高 , 利用 基因 芯片 检测 smal RNA 非常 困难 ， 只 有 通过 第 二 代 测 序 技术 才能 克服 这 一 难题 。 


(4) ОМА 和 蛋白质 相互 作用 


染色 质 免 疫 共 沉 淀 技术 (Chromatin immunopre-cipitation, ChIP), 也 称 结合 位 点 分 析 法 ， 
是 全 基因 组 水 平 研究 ОМА 与 蛋白 质 相 互 作用 的 有 力 工 具 和 标准 方法 。 将 СЫР 与 下 一 代 高 
通 量 测序 技术 相 结合 的 ChIP-seq 技术 ， 由 于 具有 成 本 低 、 效 率 高 、 检 测 的 灵敏 度 和 有 覆盖 度 
高 等 优势 ， 已 经 广泛 应 用 于 以 下 两 个 方面 : 一 方面 是 DNA 序列 上 转录 因子 结合 位 点 
(Binding sites) 的 识别 ， 如 启动 子 、 增 强 子 等 各 种 顺 式 作 用 元 件 〈Cis-acting element) 的 识 
别 ; 另 一 方面 主要 应 用 在 表 观 遗传 学 领域 ,包括 研究 基因 组 ОМА 甲 基 化 、 组 蛋白 修饰 和 核 
小 体 定位 等 问题 中。 


(5) ОМА 甲 基 化 分 析 中 的 应 用 


DNA 甲 基 化 在 维持 细胞 正常 功能 、 遗 传 印记 和 胚胎 发 育 过 程 中 起 着 极其 重要 的 作用 。 
第 二 代 测 序 可 以 在 基因 组 整体 水 平 高 精度 检测 ОМА 甲 基 化 。 三 种 常见 的 依赖 于 高 通 量 测序 
的 ОМА 甲 基 化 分 析 技 术 有 : 甲 基 化 ОМА 免疫 共 沉 淀 测序 (Methylated DNA 
immunoprecipitation sequencing，MeDIP-seq)、 甲 基 化 ОМА (EA) 结合 域 测 序 (Methylated 
DNA binding domain sequencing, MBD-seq) 和 亚 硫 酸 氧 盐 测 序 (Bisulfite sequencing, 
BS-seq)。 


2.2.3 序列 分 析 


序列 分 析 是 生物 信息 学 最 基本 的 工作 。 当 前 生物 实验 获得 的 最 主要 数据 依然 还 是 DNA、 
ЕМА 和 和 蛋白质 序 列 ， 它 们 构成 了 生物 信息 学 的 出 发 点 和 最 主要 内 容 。 特 别 是 当前 高 通 量 测 
序 的 迅猛 发 展 使 序列 分 析 的 需求 呈 海 量 倍增 ， 对 序列 分 析 提 出 了 更 多 新 的 要 求 ， 同 时 也 改 
变 了 序列 分 析 的 内 容 和 重点 。 从 高 通 量 数据 处 理 的 需求 出 发 ， 当 前 的 序列 分 析 主 要 集中 在 
序列 预 处 理 、 序 列 拼接 、 短 序列 映射 、 变 异 检测 、 序 列 比 对 、 相 似 性 搜索 、 分 子 进 化 分 析 
和 比较 基因 组 学 等 方面 。 


(1) DNA 序列 的 预 处 理 


测序 得 到 的 DNA 序列 除了 包括 目的 基因 的 短片 段 之 外 ,还 常常 包括 引物 、 接 头 或 载体 
等 其 他 片段 ， 必 须 通过 计算 机 程序 去 除 这 些 片段 ， 这 个 过 程 叫 做 去 污染 。 除 此 之 外 ， 还 要 
去 除 测序 质量 较 低 的 部 分 ， 这样 得 到 高 质量 的 干净 (Clean) 数据 ， 才 能 用 于 进一步 的 分 析 。 
Bioconductor 的 ShortRead 软件 包 提供 了 有 针对 性 的 函数 ， 用 来 去 除 第 二 代 测 序数 据 中 的 污 
染 和 低 质 量 片 段 。 


(2) 序列 拼接 
第 二 代 测 序 会 得 到 大 量 随机 的 短 DNA 片段 , 因此 如 何 正确 拼接 这 些 片段 以 得 到 目的 基 
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因 组 或 转录 组 是 一 个 具有 挑战 性 的 问题 。 由 于 序列 拼接 算法 比较 复杂 ， 且 耗费 的 资源 非常 
可 观 ， 因 此 普遍 需要 用 更 具有 效率 的 编程 语言 (如 C++/C) 编写 ， 这 里 不 做 过 多 介绍 。 拼 
接 得 到 的 序列 叫做 一 致 性 序列 (Consensus sequences)， 它 只 是 代表 了 一 条 参考 序列 ， 在 这 
条 序列 的 每 个 位 点 的 核 苷 酸 只 是 出 现 次 数 较 多 的 那 种 ， 出 现 次 数 少 的 核 背 酸 不 被 反映 出 来 。 


(3) 短 序列 映射 和 变异 检测 


对 已 有 基因 组 或 转录 组 作为 参考 序列 的 重 测序 项 目 中 ， 需 要 将 测序 得 到 的 短 序列 (一 
般 不 超过 500 个 bp) 映射 到 参考 序列 ， 这 个 过 程 也 叫 对 齐 〈Alignment)。 这 也 是 一 个 耗费 
资源 的 工作 ， 因 此 不 多 介绍 。 不 过 短 序列 映射 的 后 续 处 理工 作 和 其 他 相应 的 数据 分 析 工 作 
会 大 量 使 用 R 编程 。 特 别 是 ， 根 据 这 些 映射 的 结果 ， 在 全 基因 组 水 平 上 扫描 并 检测 发 现 大 
量 的 基因 序列 变异 ， 并 结合 表 型 分 析 ， 进 而 指导 动 植物 育种 或 人 类 疾病 等 研究 中 。 这 些 变异 
包括 : 单 核 背 酸 多 态 性 〈single nucleotide polymorphism，SNP)、 拷 贝 数 变 异 (Сору Number 
Variation，CNV)、 插 入 〈JInsertion) 和 缺失 (Deletion) 等 变异 类 型 。 


2.2.4 序列 比 对 和 相似 性 搜索 


序列 比 对 又 叫 序 列 对 齐 ， 简 单 来 说 就 是 将 两 个 或 多 个 序列 排列 在 一 起 ， 标 明 其 相似 之 
处 ， 进 而 确定 序列 之 间 的 相似 性 。 序 列 比 对 中 ， 对 应 的 相同 或 相似 的 符号 (在 核酸 中 是 核 
苷 酸 残 基 ， 在 蛋白 质 中 是 氨基 酸 残 基 ) 排列 在 同一 列 上 ， 序 列 中 可 以 插入 空位 (图 2-5)。 

序列 比 对 的 理论 基础 是 进化 学 说 ， 如 果 两 个 序列 之 间 具 有 足够 的 相似 性 ， 就 推测 二 者 
可 能 由 共同 的 进化 祖先 ， 经 过 序列 内 残 基 的 替换 、 残 基 或 序列 片段 的 缺失 以 及 序列 重组 等 
遗传 变异 过 程 演化 而 来 。 序 列 相似 和 序列 同 源 是 不 同 的 概念 ， 序 列 之 间 的 相似 程度 是 可 以 
量化 的 参数 ， 而 序列 是 否 同 源 需 要 有 进化 事实 的 验证 。 序 列 比 对 根据 比 对 的 序列 数量 ,分 
为 双重 比 对 和 多 重 比 对 。 双 重 比 对 的 一 个 重要 应 用 是 根据 已 知 基因 的 结构 、 功 能 等 信息 推 
断 其 相似 基因 的 同类 信息 。 


СААААТТААТСССТАСТССАССТСААСАТССТАСТСТТССАСТАТССТСТСТТб---ААС 
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图 2-5 ”序列 双重 比 对 实例 


图 2-5 是 一 对 ОМА 序列 比 对 的 结果 , 短 横 线 “-” 表 示 空 位 , 竖 线 “1|” 表 示 残 基 相 同 ， 
用 相同 残 基 总 量 〈49) 除 以 考虑 空位 后 的 序列 长 度 〈60) 可 以 得 到 两 条 序列 的 相似 度 是 
81.67%。 根 据 算法 不 同 ， 序 列 比 对 可 以 分 为 全 局 比 对 和 局 部 比 对 ， 前 者 主要 用 以 鉴别 新 序 
列 与 已 有 序列 的 同 源 关 系 ， 而 后 者 主要 用 来 寻找 一 个 基因 或 蛋白 家 族 中 的 保守 序列 片段 。 

在 实际 工作 中 ， 双 重 比 对 最 常见 的 用 途 就 是 用 于 数据 库 相 似 性 搜索 。 具 体 来 说 就 是 将 
查询 序列 未 注释 的 ) 和 数据 库 中 的 备 选 序列 (已 有 功能 等 注释 信息 做 比 对 ， 根 据 设 定 
的 相似 性 阔 值 ， 从 数据 库 中 存在 的 亿 万 条 序列 中 挑选 出 符合 要 求 的 序列 ， 这 些 序列 可 以 用 
来 提供 查询 序列 的 一 些 未 知 信息 《如 功能 、 结 构 等 )， 还 可 用 于 多 重 比 对 ， 构 建 进化 树 。 
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多 重 比 对 的 对 象 是 一 组 假定 具有 进化 关系 的 序列 ， 这 组 序列 一 般 可 以 通过 上 面 提 到 的 
数据 库 相 似 性 搜索 得 来 。 根 据 多 重 比 对 的 结果 可 推导 出 这 些 序列 间 的 进化 关系 。 多 重 比 对 
还 经 常用 来 研究 序列 的 保守 性 ， 例 如 蛋白 质 多 重 比 对 可 以 找到 一 些 高 度 保守 的 位 点 ， 这 些 
位 点 可 能 对 蛋白 质 的 结构 和 功能 至 关 重 要 ， 但 并 不 是 所 有 保守 的 残 基 都 一 定 是 对 结构 功能 
起 重要 作用 的 ， 可 能 它们 只 是 由 于 历史 的 原因 被 保留 下 来 ， 而 不 是 由 于 进化 压力 而 保留 下 
来 。 因 此 还 需要 实验 和 其 他 方面 信息 的 支持 ， 才 能 进一步 确定 。 


2.2.5 ”分子 进化 和 系统 发 生 树 


进化 生物 学 (Evolutionary biology) 是 生物 学 最 基本 的 理论 之 一 ， 它 探究 生物 进化 并 产 
生生 物 多 样 性 的 历程 。 长 期 以 来 , 为 了 获得 生物 进化 历史 的 框架 ， 人 们 常用 比较 生物 学 〈 如 
生理 学 、 形 态 学 等 ) 方法 辅 以 化 石 证 据 来 构建 系统 发 生 树 (Phylogenetic tree)， 又 称 为 进化 
树 (Evolutionary tree)。 然 而 ， 由 于 形态 和 生理 性 状 的 进化 式样 极其 复杂 ， 加 上 化 石 资料 不 
够 完整 ， 因 而 所 构建 的 系统 树 往往 存在 不 少 争 议 ， 难 以 反映 生物 进化 历史 的 全 貌 。 


(1) 分 子 进化 


所 有 生命 的 蓝图 都 是 以 DNA《〈 某 些 病毒 中 为 RNA) 书写 的 ， 因 而 可 以 通过 比较 ОМА 
序列 来 研究 它们 的 进化 关系 .20 世纪 中 叶 , 进化 研究 开始 进入 分 子 进 化 (Molecular evolution) 
水 平 ， 这 一 学 科 领 域 被 称 为 分 子 系统 学 (Molecular systematics ) 。 

分 子 进化 为 解决 系统 与 进化 生物 学 中 的 疑难 问题 提供 了 新 的 方法 论 和 工具 ， 已 对 生物 
分 类 学 的 发 展 发 挥 了 至 关 重 要 的 作用 。 尤 其 到 了 20 世纪 末 ， 基 因 组 测序 计划 的 巨 量 信息 带 
来 了 若干 生物 领域 重大 问题 的 提出 ， 诸 如 遗传 密码 的 起 源 、 基 因 组 结构 的 形成 与 演化 、 进 
化 的 动力 等 ， 使 得 分 子 进化 研究 成 为 生命 科学 中 最 引信 注目 的 领域 之 一 。 

分 子 进 化 研究 目前 更 多 地 集中 在 分 子 〈 核 酸 或 蛋白 质 ) 序列 上 ， 但 随 着 越 来 越 多 生物 
基因 组 的 测序 完成 ， 基 因 组 水 平 上 的 研究 会 逐渐 多 起 来 。 


(2) 系统 发 生 树 


进化 树 表明 了 有 具有 共同 祖先 的 各 物种 间 的 演化 关系 。 所 谓 树 ， 从 数据 结构 角度 来 讲 ， 
实际 上 是 一 个 无 向 非 循 环 图 。 系 统 发 生 树 由 一 系列 节点 (Nodes) 和 分 支 (Branches ) 组 成 ; 
每 个 节点 代表 一 个 分 类 单元 〈 物 种 或 序列 )， 节 点 间 的 连 线 代 表 节 点 之 间 的 进化 关系 。 树 的 
节点 又 分 为 外 部 节点 〈Terminal node) 和 内 部 节点 〈Internal node): 外 部 节点 代表 实际 观察 
到 的 分 类 单元 ;内 部 节点 又 称 为 分 支点 ， 它 代表 了 进化 事件 发 生 的 位 置 ， 或 代表 分 类 单元 
进化 历程 中 的 祖先 。 

根据 节点 的 不 同意 义 ， 系 统 树 又 可 以 分 为 物种 树 (Species tree)、 基 因 树 (图 2-6) 等 ， 
前 者 常常 根据 物种 的 表 型 数据 构建 ， 后 者 才 是 分 子 水 平 的 。 

系统 发 生 树 有 许多 形式 : 可 能 是 有 根 树 (Rooted тее), 也 可 能 是 无 根 树 (Unrooted tree) 
С 2-7); 可 能 是 一 般 的 树 ， 也 可 能 是 二 又 树 ; 可 能 是 有 权 值 的 树 〈 或 标 度 树 ，Scaled tree, 
树 中 标明 分 支 的 长 度 )， 也 可 能 是 无 权 值 树 〈 或 非 标 度 树 ，Unscaled tree). 
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图 2-6 ”物种 树 与 基因 树 〈 此 图 片 来 自 互 联网 ) 


有 根 树 反映 了 树 上 物种 或 基因 的 时 间 顺 序 ， 而 无 根 树 只 反映 分 类 单元 之 间 的 距离 而 不 
涉及 谁 是 谁 的 祖先 问题 。 在 一 棵 有 根 树 中 ， 有 一 个 唯一 的 根 节 点 ， 代 表 所 有 其 他 节点 的 共 
同 祖先 ， 这 样 的 树 能 够 反映 进化 层次 ， 从 根 节点 历经 进化 到 任何 其 他 节点 只 有 唯一 的 路 径 。 
系统 发 生 分 析 中 一 个 重要 的 差别 是 ， 有 的 能 由 系统 发 生 树 推断 出 共同 祖先 和 进化 方向 ， 而 
有 的 却 不 能 。 无 根 树 没有 层次 结构 ， 无 根 树 只 说 明了 节点 之 间 的 关系 ， 没 有 关于 进化 发 生 
方向 的 信息 。 但 是 通过 使 用 外 部 参考 物种 (那些 明确 地 最 早 从 被 研究 物种 中 分 化 出 来 的 物 
种 )， 可 以 在 无 根 树 中 指派 根 节点 。 例 如 在 研究 人 类 和 大 猩猩 时 ， 可 用 独 独 作为 外 部 参考 物 
种 ， 树 的 根 节点 可 以 放 在 连接 狮 卯 与 人 和 大 猩猩 共同 祖先 的 分 支 上 。 
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eukaryote eukaryote 
有 根 树 
82-7 无 根 树 和 有 根 树 〈 此 图 片 来 自 互联 网 》 


无 根 树 


二 又 树 是 一 种 特殊 的 树 ， 每 个 节点 最 多 有 两 个 子 节点 。 在 有 权 值 的 树 中 ， 分 支 的 长 度 
(或 权 值 ) 一 般 与 分 类 单元 之 间 的 变化 成 正比 ， 它 是 关于 生物 进化 时 间或 者 遗传 距离 的 一 种 
度量 形式 。 一 般 假 设 存 在 一 个 分 子 钟 ， 进 化 的 速率 恒定 。 
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(3) 系统 树 的 构建 方法 


构建 系统 树 的 数据 有 两 种 类 型 : 一 种 是 特征 数据 ， 可 以 是 基因 序列 、 个 体 、 群 体 或 物 
种 特征 的 集合 ， 二 是 距离 数据 或 相似 性 数据 ， 它 表示 了 基因 序列 、 个 体 、 群 体 或 物种 两 两 
之 间 的 相似 性 。 距 离 数据 可 由 特征 数据 计算 获得 ， 但 反 过 来 则 不 行 。 

分 子 水 平 的 系统 树 构 建 主要 有 四 种 方法 。@ 距 离 矩 阵 法 (Distance matrix method)， 首 
先 计 算 每 对 序列 之 间 的 进化 距离 〈 例 如 差异 的 碱 基 比 例 )， 其 准确 大 小 依赖 于 进化 模型 的 选 
择 ， 然 后 运行 一 个 聚 类 算法 ， 从 最 相似 《两 者 之 间 的 距离 最 短 ) 的 序列 开始 构建 整个 进化 
树 ; 最 大 简约 法 (Maximum Parsimony，MP)， 较 少 涉及 遗传 假设 ， 它 通过 寻求 序列 间 最 
小 的 改变 来 完成 建树 的 ; @ 对 于 模型 的 巨大 依赖 性 是 最 大 似 然 法 (Maximum Likelihood, ML) 
的 特征 , 该 方法 在 计算 上 繁杂 , 但 为 统计 推断 提供 了 基础 ; 由 贝 叶 斯 算法 (Bayesian Inference 
of Phylogeny, ВІ) 以 MrBayes 为 代表 ， 不 过 速度 较 慢 ， 一 般 的 进化 树 分 析 中 较 少 应 用 。 

系统 进化 树 构 建 和 显示 方面 常用 的 软件 有 : PHYLIP、PAUP (МР 法 常用 )、MEGA、 
MOLPHY8、PAML、PAxML (ML W% H), PUZZLE, TreeView, phylogeny, PHYMLS 
MrBayes (BI 法 常用 ) 和 Tree of Life 2%. PHYLIP 和 Tree View 简单 而 常用 ， 关 于 它们 的 使 
用 方法 请 参见 第 三 章 。MEGA 功能 更 加 强大 ， 预 计 会 逐渐 成 为 主流 。 


2.3 基因 表达 分 析 


2.3.1 基因 表达 的 检测 方法 


基因 表达 需要 直接 或 间接 测量 某 个 生物 个 体 〈 如 人 ) 内 全 部 基因 的 转录 产物 〈 指 狭 
义 的 转录 组 ) 在 细胞 中 的 丰 度 ， 常 用 的 检测 方法 有 实时 荧光 定量 PCR (Quantitative real 
time PCR, qRT-PCR)、 基 因 (表达 谱 ) 芯片 (Microarray)、 表 达 序 列 标签 0Expressed Sequence 
Тар, Е$Т), 基因 表达 系列 分 析 (Serial Analysis of Gene Eexpression, SAGE) 和 转录 组 
测序 (RNA-seq) 等 。 当 前 ， 高 通 量 基因 表达 测量 方法 主要 是 基因 芯片 和 转录 组 测序 。 

基因 芯片 以 DNA 杂交 为 基本 原理 ， 基 于 A 和 T、G 和 C 的 互补 关系 ， 通 过 检测 样 
品 与 一 组 已 知 序列 的 核酸 探 针 杂交 后 的 信号 强度 来 测量 基因 表达 量 (图 2-8)。 当 前 ， 基 
因 芯 片 主要 分 为 寡 聚 核 苷 酸 芯片 和 cDNA 芯片 。 前 者 以 美国 Affymetrix 公司 为 代表 , 通 
过 显 微 光 蚀刻 等 技术 ， 在 芯片 的 特定 部 位 原 位 合成 寡 聚 核 苷 酸 而 制 成 ， 这 种 芯片 集成 度 
较 高 ， 芯 片 之 间 性 能 稳定 ， 因 此 又 称 原 位 合成 芯片 、 高 密度 芯片 和 单 通道 芯片， 后 者 多 
采用 双色 杂交 系统 ， 即 使 用 Cy5( 红 ) 和 Суз (C) 两 种 染料 分 别 标 记 所 比较 两 种 样品 
的 cDNA 序列 ， 然 后 杂交 至 同一 芯片 ， 通 过 染料 荧光 强度 ， 可 间接 比较 两 种 样品 表达 量 
高 低 ， 因 此 又 称 点 样 芯片 、 低 密度 芯片 和 双 通 道 〈《 即 两 种 颜色 ) 芯片 。 除 了 用 于 基因 表 
达 检 测 ， 基 因 芯 片 还 可 以 用 于 多 种 测量 领域 〈 见 4.2.3)。 当 前 ， 由 于 寡 聚 核 背 酸 芯片 的 
高 密度 、 高 稳定 性 等 优势 ， 几 乎 完全 取代 了 点 样 芯 片 。 市 场 上 主流 的 寡 聚 核 苷 酸 芯 片 产 
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品 主要 来 自 三 家 公司 : Affymetric 公司 、Agilen 公司 和 Illumina 公司 。 由 于 Affymetrix 
产品 在 市 场 上 的 主流 地 位 ， 本 书 的 大 部 分 实例 都 基于 采用 Affymetrix 芯片 产生 的 数据 。 


UGCAUG “一 -和 CATGCA 
“PERETTI 
mRNA 带 标记 的 cDNA 


DNA array 
图 2-8 芯片 杂交 原理 


转录 组 测序 ， 即 RNA-seq( 见 本 章 2.2)， 不 仅 能 获得 已 知 基因 的 表达 情况 ， 更 能 发 现 
新 的 转录 本 信息 。 由 于 RNA-seq 可 以 同时 测 得 转录 本 的 序列 和 数量 ， 因 此 除了 应 用 于 表达 
量 分 析 之 外 ， 还 可 用 于 可 变 前 接 以 及 转录 本 结构 变异 等 研究 。RNA-seq 在 信号 敏感 度 、 动 
态 测量 范围 和 精度 等 方面 比 基 因 芯片 具有 优势 ， 因 此 成 为 了 当前 的 热门 技术 。 第 六 章 详细 
介绍 了 RNA-seq 技术 以 及 相应 的 数据 处 理 问 题 ， 这 里 不 再 详 述 。 


2.3.2 基因 表达 数据 分 析 


基因 表达 数据 通常 用 矩阵 形式 表示 ， 称 为 基因 表达 和 矩阵 〈 见 第 五 章 例 5-1)。 基 因 表 达 
矩阵 的 一 行 代表 一 个 基因 在 不 同 条 件 ( 如 实验 处 理 ) 下 或 来 源 ( 如 组 织 、 株 系 等 ) 的 表达 ， 一 
列 代表 某 个 条 件 下 或 某 个 来 源 的 样品 内 的 所 有 基因 的 表达 情况 ， 每 个 格子 的 数据 表示 特定 
的 基因 在 特定 的 条 件 下 或 特定 来 源 的 某 个 样品 的 表达 水 平 。 

基因 表达 数据 分 析 就 是 通过 对 基因 表达 和 矩阵 的 分 析 ，, 回答 一 些 生物 学 问题 ， 例 如， 在 不 
同 条 件 或 不 同 细胞 类 型 中 ， 哪 些 基因 的 表达 存在 显著 差异 ? 这 些 基 因 有 什么 共同 的 功能 ， 
或 者 参与 什么 共同 的 代谢 途径 ? 在 不 同 条 件 下 ， 哪 些 基 因 变 化 一 致 ， 它 们 受到 哪些 基因 的 
调节 ， 或 者 控制 哪些 基因 的 表达 ? 哪些 基因 的 表达 是 细胞 状态 特异 性 的 ， 根 据 它们 的 行为 
可 以 判断 细胞 的 状态 “和 生存、 增殖、 分化、 凋 亡 、 癌 变 或 应 激 等 ) 等 等 。 基 因 表 达 数 据 分 
析 和 实验 设计 密 不 可 分 ， 总 体 来 说 ， 实 验 设计 有 两 大 类 思路 : 一 类 是 时 间 序 列 分 析 ， 主 要 
思想 是 测定 基因 多 个 时 间 点 的 表达 值 ， 通 过 聚 类 和 主 成 分 分 析 等 分 析 手 段 寻 找 共 调控 基因 ， 
进而 研究 其 深层 机 制 ， 第 二 类 就 是 基因 表达 差异 的 显著 性 分 析 。 


2.3.3 基因 表达 差异 的 显著 性 分 析 


基因 表达 差异 的 显著 性 分 析 (Significance analysis of gene differential expression )， 简 称 
表达 差异 分 析 ， 是 当前 基因 表达 分 析 中 的 重 中 之 重 ， 其 目的 是 比较 两 个 条 件 〈 包 括 种 属 、 


142 В 语言 与 Bioconductor 生物 信息 学 应 用 


表 型 等 ) 下 的 基因 表达 差异 ， 通 过 一 定 的 统计 学 方法 ， 从 中 识别 出 与 条 件 相关 的 特异 性 基 
因 ， 然 后 进一步 分 析 这 些 特异 性 基因 的 生物 学 意义 。 

基因 表达 差异 分 析 的 第 一 步 是 要 识别 在 两 个 条 件 下 有 显著 性 表达 差异 的 基因 ， 人 简称 差 
异 表 达 (Differential Expressed，DE) 基因 。 何 谓 显著 性 表达 差异 ? 通常 是 指 一 个 基因 在 两 
个 条 件 中 表达 水 平 的 检测 值 的 差异 ， 具 有 统计 学 意义 ， 这 个 统计 学 意义 往往 是 基于 一 定 的 
统计 假设 〈 如 正 态 分 布 假设 ) 的 。 常 用 的 算法 有 三 类 : 第 一 类 称 之 为 倍数 分 析 〔 无 任何 统 
计 假 设 )， 计 算 每 一 个 基因 在 两 个 条 件 下 的 比值 ， 若 大 于 给 定 阔 值 ， 则 为 差异 表达 基因 ; 第 
二 类 方法 采用 经 典 统计 模型 (如 T 检验 ) 或 其 变种 (如 SAM 方法 由)， 计 算 表达 差异 的 置 
信和 度 (P 值 )， 选 取 一 定 P 值 (如 0.01) 以 下 的 作为 差异 表达 基因 ， 第 三 类 是 通过 机 器 学 习 
方法 进行 特征 (基因 选择， 包括 贝 叶 斯 模型 、 支 持 向 量 机 或 者 随机 森林 等 。 得 到 差异 表 
达 基 因 后 ， 通 常会 进行 基因 本 体 论 和 通路 分 析 〈 这 些 通常 成 为 下 游 分 析 )。 图 2-9 包括 了 表 
达 差 异 分 析 的 基本 步骤 ,“ 其 他 分 析 ” 包 括 了 一 些 更 高 级 的 统计 分 析 ， 例 如 机 器 学 习 和 进化 
分 析 等 。 


原始 数据 
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基因 表达 算 阵 


差异 表达 基因 
| G0 分 析 || 通路 分 析 网 络 分 析 | | 其 他 分 析 


系统 生物 学 


一 


图 2-9 表达 差异 分 析 基 本 流程 
2.3.4 基因 本 体 论 分 析 


基因 本 体 论 〈Gene Onotology, GO) 分 析 包 括 GO 注释 和 GO 富 集 分 析 。GO 是 基因 本 
体 联合 会 《Gene Ontology Consortium) 所 建立 的 数据 库 ， 它 由 一 组 预先 定义 好 的 术语 (СО 
term) 组 成 ， 这 组 术语 对 基因 和 和 蛋白 质 功 能 进行 限定 和 描述 ， 适 用 于 各 种 物种 ， 并 能 随 着 研 
究 不 断 深入 而 更 新 。GO 中 的 每 个 术语 都 有 唯一 的 一 个 GO Ір, СО 的 所 有 术语 由 有 向 无 环 
图 (DAG) 来 相互 联系 ， 术 语 之 间 通 常 有 三 种 关系 :“is_a”、“part_of” 和 “regulates”。 下 
图 就 是 一 个 GO 术语 之 间 的 局 部 关系 图 。 
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图 2-10 ”基因 本 体 论 术语 之 间 关 系 图 


_ 所谓 GO 注释 ,就 是 将 表示 基因 或 其 产物 的 ID 映射 到 一 组 GO 的 ID 上 ,用 这 组 GO term 
来 描述 这 个 基因 。 而 实际 应 用 中 ， 人 们 更 关心 一 组 基因 《比如 差异 表达 基因 ) 的 共同 点 ， 
因此 会 对 它们 所 对 应 的 所 有 СО 的 分 布 情况 进行 分 析 ， 有 利于 发 现 新 的 现象 ， 或 者 集中 到 
感 兴趣 的 方向 。 

如 果 能 够 加 入 一 些 统计 模型 ， 使 分 析 更 加 深入 ， 可 能 会 产生 更 有 生物 学 意义 的 发 现 。 
GO 富 集 分 析 ， 就 是 基于 这 么 一 个 思想 的 分 析 方 法 。GO 富 集 分 析 的 统计 学 基础 是 超 几 何 分 
布 ， 简 单 来 说 就 是 根据 下 列 Fisher 精确 检验 (Fisher exact test) 公式 ， 对 每 个 GO term 计算 
一 个 P 值 : 


Еэ 
Р = К n-k 公式 2-1 
N 


n 


公式 2-1 F, М 表示 此 次 研究 中 (比如 一 张 蕊 片上 〉 所 有 基因 总 数 ; n 表示 N 中 差 
异 表 达 基 因 的 总 数 ; М 表示 М 中 属于 某 个 GO term 的 基因 个 数 ; k 表示 n 中 属于 某 个 
СО term 的 基因 个 数 。P 值 表 示 差 异 表达 基因 富 集 到 这 个 GO term 上 的 可 信 程 度 ， 当 了 
小 于 一 定 阔 值 《0.01 或 0.05)， 则 认为 差异 表达 基因 显著 性 的 富 集 到 这 个 GO term 上 。 
显著 富 集 的 GO term 为 研究 人 员 提 供 的 信息 更 为 集中 、 更 有 意义 , 对 后 续 研 究 更 有 启发 。 

另外 , 值得 注意 的 是 , 由 于 不 是 所 有 的 基因 或 者 所 有 的 差异 表达 基因 都 有 GO 注释 ， 
因此 在 计算 N 和 nm 的 时 候 ， 有 些 文献 提出 了 不 同 的 方法 : М 表示 此 次 研究 中 (比如 一 张 
芯片 上 ) 所 有 有 GO 注释 的 基因 总 数 ; п 表示 М 中 差异 表达 基因 中 有 GO 注释 的 基因 总 
数 〈 见 例 5-24)。 这 个 问题 同样 存在 于 通路 富 集中 的 P 值 计 算 中 。 但 是 对 于 人 这 类 GO 
注释 信息 比较 丰富 的 物种 ， 两 种 不 同 计算 方法 得 到 的 结果 差别 不 大 ， 一 般 很 少 有 人 加 以 
区 分 。 
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2.3.5 通路 分 析 


通路 (Pathway) 分 析 包 括 通路 注释 和 通路 富 集 分 析 。 通 路 富 集 分 析 的 基本 思路 、 统 计 
模型 等 基本 和 GO В ЛИТ ШШ. ШОН, BEHAR 2-1 来 计算 每 个 通路 的 P 值 。 公 
A 2-1 中 ，N 表示 此 次 研究 中 所 有 有 通路 注释 的 基因 总 数 ，M 表示 有 通路 注释 的 差异 表达 
基因 的 总 数 ; n 表示 N 中 属于 某 个 通路 的 基因 个 数 ;k 表示 M 中 属于 某 个 通路 的 基因 个 数 。 
得 到 的 P 值 ， 表 示 差 异 表达 基因 富 集 到 这 个 通路 上 的 可 信 程 度 ， 当 P 小 于 一 定 阔 值 〈0.01 
或 0.05)， 则 认为 差异 表达 基因 显著 性 的 富 集 到 这 个 通路 上 。 

常用 的 公共 通路 数据 库 主 要 有 KEGG (Kyoto encyclopedia of genes апі genomes), 
BioCarta 和 GenMAPP (Gene тар annotator and pathway profiler)， 最 为 著名 的 是 KEGG F 
中 的 代谢 通路 ，KEGG 代谢 通路 注释 几乎 成 为 了 通路 注释 的 代名词 。 很 多 事实 已 经 证 明 ， 
KEGG 的 数据 是 非常 可 靠 的 ， 因 此 本 书 中 的 应 用 实例 选用 KEGG 做 通路 注释 。 这 里 需要 注 
意 的 是 ，KEGG 有 两 个 比较 大 的 缺点 : 第 一 就 是 注释 源 问 题 ， 它 只 提 到 由 相关 专家 收集 整 
理 而 成 , 没有 参考 文献 等 来 源 信 息 ; 第 二 就 是 授权 问题 , 由 于 它 授权 过 于 严格 , Biocondocutor 
已 经 无 法 继续 支持 它 ， 转 而 开始 使 用 更 加 开源 的 Reactome 数据 库 。 


2.4 注释、 统计 与 可 视 化 


如 何 用 最 精简 的 语言 来 概括 生物 信息 学 狭义 的 ) 的 主要 工作 ， 那 就 是 注释 、 统 计 和 
可 视 化 。 这 里 的 注释 是 指 通 过 编制 计算 机 程序 自动 批量 注释 ， 它 往往 是 数据 处 理 的 第 一 步 ; 
统计 基于 多 条 序列 注释 的 结果 ; 可 视 化 贯穿 整个 数据 的 处 理 过 程 ， 是 生物 信息 学 的 一 个 重 
要 组 成 部 分 。 广 义 的 生物 信息 学 还 涉及 更 多 的 方向 ， 如 数据 库 构建 和 数据 挖 抉 领域、 计算 
生物 学 领域 (三 级 结构 预测 和 药物 对 接 ) 和 系统 生物 学 等 ， 这 里 不 做 讨论 。 

举例 来 说 , 如 果 你 通过 测序 得 到 一 条 DNA 序列 , 首先 要 做 的 就 是 比 对 到 公共 数据 库 ( 即 
相似 性 搜索 )， 找 到 它 的 相似 序列 ， 得 到 这 条 相似 序列 的 功能 和 结构 等 各 类 信息 。 基 因 组 或 
转录 组 序列 的 注释 包括 基因 识别 和 基因 功能 注释 两 个 方面 。 基 因 识 别 的 核心 是 确定 全 基因 
组 序列 中 所 有 基因 〈 包 括 编码 区 、 调 控 区 、57 端 未 翻译 区 和 3? 端 未 翻译 区 等 ) 的 确切 位 置 。 
主要 有 两 种 方法 : 一 是 通过 相似 性 比 对 从 已 知 基因 和 蛋白质 序 列 得 到 间接 证 据 ， 二 是 基于 
各 种 统计 模型 和 算法 从 头 预 测 。 对 从 头 预 测 出 的 基因 进行 高 通 量 功能 注释 也 是 基于 相似 性 
搜索 。 


2.4.1 注释 与 ID 映射 
由 于 大 量 的 生物 信息 已 经 由 生物 学 家 分 门 别 类 收集 到 各 种 数据 库 中 ， 因 此 在 调用 这 些 


信息 时 ， 只 需要 提供 所 需 信 息 所 在 数据 库 的 ID 。 比 如 ， 如 果 你 想 用 到 哪 条 序列 的 简单 介绍 ， 
可 以 提供 NBCI Genbank 数据 库 的 Accession number; 如 果 是 蛋白 质 结构 信息 ,一 般 常 用 PDB 
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数据 库 的 ID。 注释 新 的 实验 数据 时 ,也 只 需要 把 这 些 已 知 信息 在 各 种 数据 库 中 的 ID 与 实验 
数据 的 IDP 对 应 上 ,这 叫做 ID 映射 (ID Mapping). ID 映射 在 数据 注释 工作 中 非常 重要 ， 以 
至 于 成 为 了 注释 的 代名词 。 

ID 映射 可 以 通过 编程 自动 化 地 进行 ， 大 大 提高 了 数据 注释 的 效率 。 除 了 自行 编程 ， 常 
用 的 数据 库 ID 之 间 的 映射 可 以 使 用 Uniprot 数据 库 网 站 的 工具 (图 2-11)。 芯 片 数 据 处 理 过 
程 中 ， 经 常 要 将 Affymetrix 探 针 组 的 ID 映射 到 其 他 数据 库 ID， 这 方面 的 常用 工具 是 NIH 
网 站 的 DAVID (http://david.abcc.ncifcrf.gov/)。 


2. + 2 е 


Search Blast Align Retrieve iD Mapping 
Database identifiers or file 
| Choose File | No file chosen 
From 
| | EMBL/GenBank/DDBJ [z] [Мар 
To [Swap | 
UniProtKB AC [=| ER 


2-11 Uniprot 网 站 的 1D 映 射 工 具 
2.4.2 统计 与 可 视 化 


对 于 一 组 基因 或 者 蛋白 质 , 往往 关心 的 是 它们 的 共性 , 因此 会 用 到 大 量 统 计 学 方法 。 
例如 对 于 一 组 差异 表达 基因 ， 研 究 人 员 会 关心 这 组 基因 富 集 到 哪些 基因 本 体 论 术语 或 者 
通路 上 ， 这 就 需要 应 用 统计 学 方法 来 对 富 集 的 显著 性 进行 定量 。 统 计 为 后 续 研 究 指明 了 
方向 ， 是 生物 信息 学 研究 的 核心 ; 而 可 视 化 可 以 帮助 研究 人 员 更 好 地 理解 统计 结果 ， 提 
供 进一步 研究 的 思路 和 灵感 。R 语言 提供 了 强大 的 统计 和 绘图 功能 《 见 第 一 章 )， 
Bioconductor 提供 简单 的 函数 调用 将 各 种 实验 结果 转换 为 符合 已 有 统计 和 绘图 函数 的 输 
入 要 求 的 数据 ， 因 此 ，R/Bioconductor 成 为 了 生物 信息 领域 的 一 个 关键 性 语言 。 

在 差异 表达 分 析 领 域 〈 特 别 是 来 自 某 些 常见 芯片 的 数据 )， 对 于 得 到 的 差异 表达 基 
因 ， 除 了 利用 R/Bioconductor 进行 统计 和 可 视 化 分 析 ， 还 可 以 使 用 一 些 提 供 了 类 似 服务 
的 网 站 (如 前 面 提 到 的 МІН 网 站 的 DAVID 工具 和 5.7.3 提 到 的 ІРА 软件 )， 
R/Bioconductor 的 优势 在 于 从 数据 到 结果 的 一 体 化 ， 省 去 了 大 量 的 手工 操作 ， 特 别 适合 
大 批量 数据 的 自动 化 处 理 。 
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这 一 章 用 了 一 个 完整 的 生物 信息 学 课题 作为 例子 ， 从 课题 背景 、 研 究 目的 、 程 序 编写 ， 
一 直到 代码 详解 等 方面 ， 完 整地 介绍 了 如 何在 实际 工作 中 根据 需求 应 用 R 和 Bioconductor 
来 解决 问题 。 本 章 抛弃 了 传统 的 语法 讲解 和 简单 举例 的 编写 方式 ， 转 而 通过 案例 学 习 ， 让 
初学 者 了 解 何 时 用 、 为 什么 用 以 及 怎么 用 К 和 Bioconductor， 以 摆脱 单纯 语法 学 习 的 枯燥 与 
迷惑 。 但 是 本 案例 包含 的 信息 量 巨 大 ， 从 生物 信息 序列 处 理 、 外 部 程序 使 用 ， 到 R 语言 的 
多 个 扩展 包 ， 涉 及 多 个 方面 的 背景 知识 。 而 且 直 接 阅读 R 源 代码 对 于 初学 者 难度 很 大 ， 
此 可 以 说 ， 本 章 的 学 习 是 困难 的 ， 甚 至 是 痛苦 的 。 读 者 一 定 要 根据 前 面 的 三 板斧 学 习 法 ， 
逐 句 执 行 并 显示 结果 ， 仔 细 对 比 输入 和 输出 数据 ， 再 结合 常用 函数 的 说 明 〈 见 附录 )， 才 能 
读 懂 程 序 。 反 复 阅 读 、 调 试 源 代码 是 学 习 计算 机 编程 语言 唯一 的 捷径 ， 非 计算 机 背景 的 初 
学 者 ， 更 要 自觉 提高 动手 能 力 ， 以 适应 计算 机 语言 学 习 的 特点 。 

本 章 3.1 是 课题 介绍 ; 3.2 应 用 一 般 扩 展 R E E Bioconductor) 实现 这 一 课题 ( 例 3-1); 
3.3 和 3.4 应 用 Bioconductor 中 的 扩展 R 包 再 次 实现 这 一 课题 ( 例 3-2 与 例 3-3)。 读 者 在 学 
习 过 程 中 ， 要 仔细 对 比 Bioconductor 的 扩展 В 包 与 一 般 扩 展 R 包 编程 的 不 同 思维 方式 和 主 
要 差别 ， 深 入 体会 Bioconductor 处 理 生物 信息 问题 带 来 的 巨大 便利 。 掌 握 好 这 一 章 的 内 容 ， 
是 继续 学 习 好 后 面 章节 的 基础 。 本 章 的 课题 仅仅 作为 一 个 范例 ， 读 者 不 必 考 虑 得 到 的 结果 
〈 例 如 进化 树 ) 是 否 到 达 预 期 ， 而 应 该 把 主要 精力 集中 到 方法 的 学 习 以 及 如 何 用 编程 实现 想 
要 的 结果 等 方面 。 


3.1 一 个 序列 分 析 课题 


3.1.1 课题 背景 


在 自然 界 中 ， 有 些 环境 是 普通 生物 不 能 生存 的 ， 如 极端 的 温度 、 酸 碱 盐 、 压 力 、 辐 射 
等 。 然 而 ， 这 里 仍然 有 一 些微 生物 在 顽强 地 生活 着 ， 它 们 就 是 极端 微生物 。 极 端 微生物 的 
和 生态、 分类、 代谢、 进化 等 均 与 一 般 生 物 有 别 ， 并 殖 藏 了 优异 的 抗 首 基因 资源 ， 有 重要 的 
研究 价值 和 应 用 前 景 。 

极端 嗜 盐 古 菌 (Halobacterium sp. NRC-1) 是 一 生存 于 高 盐 环 境 下 的 古 生 菌 (Archaeon )， 
它 在 分 类 学 上 位 于 Archaea Ў, Euryarchaeota [1], Halobacteria #, Halobacteriales H, 
Halobacteriaceae В|, Halobacterium 属 。 通 过 分 析 Halobacterium sp. NRC-1 的 基因 组 序列 ， 
共 得 到 2630 个 可 能 编码 蛋白质 的 基因 , ЖН 41% 的 基因 所 表达 出 的 蛋白 质 是 有 功能 注释 的 ， 
22% 与 其 他 物种 未 知 功能 的 蛋白 质 有 高 度 的 保守 性 , 36% 的 基因 表达 出 的 蛋白 质 无 法 比 对 到 
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其 他 物种 的 蛋白 质 (Ng etal., et al., 2000). 
3.1.2 研究 目的 与 实验 设计 


极端 嗜 盐 古 菌 发 展 出 许多 复杂 且 完 整 的 分 子 机 制 以 对 抗 盐分 、 氧 气 、 光 和 养分 的 变动 ， 
因此 可 以 尝试 从 蛋白 质 水 平 寻找 某 些 序列 特征 ， 以 期 找到 一 些 相关 的 机 制 。 由 于 本 例 的 目 
的 在 于 培养 初学 者 使 用 R 语言 编程 的 思维 方式 ， 因 此 仅仅 提供 一 些 最 基本 的 序列 分 析 源 代 
码 , 不 涉及 更 多 的 生物 学 意义 ， 以 简化 读者 的 学 习 任务 。 实 验 设 计 包 括 以 下 五 个 方面 的 任务 : 

А. 将 蛋白 质 序列 批量 导入 ; 

В. 统计 每 条 序列 的 氨基 酸 百分比 含量 ; 

С. 特定 模 序 匹配 与 统计 ， 提 取 包 含 模 序 2 次 以 上 的 蛋白 质 序列 ; 

D. 对 提取 的 序列 进行 两 两 比 对 ; 

Е. 根据 比 对 结果 构建 系统 发 生 树 。 


3.1.3 数据 获取 与 处 理 流 程 


首先 登录 NCBI Genbank 数据 库 ( 版 本 190) 中 的 下 载 链接 ftp://ftp.ncbi.nih.gov/genbank, 
进入 genomes 子 目 录 ， 再 进入 到 Bacteria 子 目 录 ， 最 后 进入 “Halobacterium_sp_uid217” 子 
目录 ， 下 载 文件 “AE004437.faa”。 该 数据 的 存 贮 格式 是 fasta 格式 ， 共 包括 2058 条 序列 记 
录 ， 存 为 11 457 行文 本 。 


AE004437.faa 
O 
对 象 


my_sequences 


BS O) 


对 象 © 
hit_sequences 


cD> ë O] 


Жж 
my_needle_file 
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对 象 
score_matrix 


‘ED QD 1 
文件 


infile 


AApercentage 
.CSV 


图 3-1 例 3-1 数 据 处 理 流程 图 


为 实现 整个 课题 ， 需 要 设计 一 个 处 理 流程 ， 这 就 需要 用 到 数据 流程 图 (Data Flow 
Diagram, DFD) 来 作为 设计 工具 。 图 3-1 是 本 课题 的 数据 流程 图 ， 图 中 的 椭圆 形 图 标 表示 


AEE, Ж ЁЛЕ Фел Н Ната, ЗЧ ЛАЙК АКШ НИЛ Т.У 
的 名 称 。 在 数据 处 理 过 程 中 ， 中 间 结 果 的 保存 可 以 使 用 变量 或 者 文件 ， 最 终结 果 用 文件 保 
存 。 如 本 课题 的 最 终结 果 文 件 有 “AApercentage.csv” 和 “outfile”， 前 者 是 为 了 用 于 其 他 分 
析 , 这 里 不 再 详 述 , 后 者 保存 了 进化 树 信 息 。 用户 可 以 选择 多 种 软件 查看 进化 树 (步骤 EA), 
这 部 分 不 包括 在 流程 中 。 

本 课题 中 的 数据 处 理 步 又 用 大 写字 母 符 号 表示 ， 与 3.1.2 中 的 任务 一 一 对 应 。 步 又 A 
B、C、E1 和 E2 用 RR 语言 编写 函数 ,步骤 D 由 R 函数 调用 其 他 外 部 程序 〈 非 及 语言 编写 ) 
实现 ，E3 和 БА 借助 其 他 软件 实现 。 本 书后 面部 分 可 以 看 到 这 些 程序 和 软件 〈 非 R 语言 
写 ) 的 功能 也 可 以 由 К 语言 实现 ， 之 所 以 调用 外 部 程序 或 借助 其 他 软件 实现 ， 主 要 是 为 了 
进一步 介绍 如 何 使 R 与 其 他 程序 或 者 软件 配合 使 用 以 完成 复杂 的 生物 信息 数据 分 析 ， 因 为 
这 种 做 法 在 实际 工作 会 经 常用 到 。 一 种 最 常见 情况 就 是 ， 读 者 已 经 熟练 掌握 了 一 些 生物 信 
息 软件 ， 只 需要 用 R 完成 这 些 软件 不 具备 的 几 个 功能 ， 而 不 需要 用 R 语言 实现 全 部 功能 ， 
大 大 减少 了 项 目 开 发 的 工作 量 。 

А. 函数 seq_import(input_file); 

B. 函数 pattern_match(pattern, sequences, і пит); 


С. 函数 getAApercentage(sequences); 

D. 函数 seq_alignment(sequences)+ EMBOSS 软件 包 之 needle.exe 程序 ; 
БІ. 函数 getScoreMatrix(sequences); 

E2. 函数 infile_produce(scorem); 

ЕЗ. PHYLIP 软件 包 之 neighbor.exe 程序 ; 

E4. PHYLIP 软件 包 之 retree.exe 程序 和 TreeView 软件 。 


3.2 用 R 包 ( 非 Bioconductor) 实现 课题 


3.2.1 定义 全 部 函数 


А. 定义 序列 导入 函数 'seq_import 


实现 如 下 功能 

DEA fasta 格式 的 数据 文件 ， 计 算 每 个 序列 的 长 度 ; 

包 结 果 返 回 一 个 数据 框 格式 的 变量 ， 每 行 是 一 个 序列 记录 ,包括 4 列 信息 〈 序 列 的 ID、 
序列 注释 信息 、 序 列 长 度 和 序列 内 容 )。 

R 语言 代码 如 下 : 

seq_import<- function(input_file) { 

# 逐 行 读 取 数据 ， 并 存 入 向 量 my_fasta， HESTENE input_file 中 的 一 行 ， 
这 样 以 后 可 以 通过 操作 向 量 my_fasta， 来 操作 对 应 文件 的 行 

Imy_fasta<- readLines(input. file); 
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# 判断 my_fasta 中 每 个 元 素 第 一 个 符号 是 否 是 “>”( 表 示 一 个 fasta 记录 的 注释 行 )， 
判断 结果 用 1 和 -1 表示 ， 并 存 入 向 量 y。 
y <- герехрг("^>", my_fasta, регі = T); 


# АЕ y 中 为 1 的 元 素 蔡 换 为 0， 即 序列 行 对 应 -1， 注 释 行 对 应 0， 这 行 语句 只 是 一 个 
习惯 问题 ， 不 是 必需 的 。 
yly == 1] <- 0; 


# 用 index 记录 下 y 中 全 部 的 0 在 向 量 中 的 位 置 ， 对 应 注释 行 的 行 号 。 
index<- which(y == 0) ; 


# 生成 数据 框 distance, 包括 第 1 列 start( 除 最 后 一 个 fasta 记录 外 的 所 有 注释 行 的 位 置 ) 
和 第 2 列 end〈 除 第 一 个 fasta 记录 外 的 所 有 注释 行 的 位 置 )。 
distance <- data.frame(start = index[1:(length(index) - 1)], епа = index[2:length(index)]); 


 # 在 数据 框 distance 最 后 增加 一 行 ( 两 个 元 素 ), 第 1 个 是 最 后 一 个 fasta 记录 的 注释 行 
位 置 ， 第 2 个 是 为 所 有 行 的 行 数 +1)。 
distance<- rbind(distance, c(distance[length(distance[, 1]), 2], length(y) + 1)); 


# 在 数据 框 distance 后 面 加 1 列 ， 其 值 是 第 2 列 和 第 1 列 之 差 , 注释 行 之 间 的 距离 ， 实 
际 上 就 是 每 条 序列 记录 对 应 的 行 数 。 
distance <- data.frame(distance, dist = distance[, 2] - distance[, 1]); 


# 建立 从 1 开始 的 连续 正 整数 向 量 ， 长 度 等 于 注释 行 的 数量 。 
seq_no<- 1:length(y[y == 0]); 


# 重复 正 整 数 向 量 seq no 中 的 每 一 个 元 素 , 重复 次 数 为 两 个 临近 注释 行 之 间 的 距离 ( 即 
distance[, 3] )。 
index<- гер(ѕед по, as.Vector(distance[, 3])); 


# 建立 一 个 新 的 数据 框 变量 ， 名 称 还 是 my_fasta， 包 括 3 列 内 容 ， 第 1 列 是 index， 第 
2 列 是 y， 第 3 列 是 旧 的 my_fasta。 
my_fasta<- data.frame(index, у, my_fasta); 


# 数据 框 my_fasta 中 ， 第 2 列 为 0 的 元 素 ， 对 应 的 第 1 列 赋值 为 0。 
my_fasta[my_fasta[, 2] == 0, 1] <- 0; 


# tapply 函数 调用 paste 函数 的 字符 串 连接 功能 ， 把 my_fasta[, 3] 中 的 同一 类 元 素 合并 ， 
my_fasta[, 3] 的 类 别 由 对 应 my_fasta[, 1] 的 数据 来 决定 ， 如 “0” 表 示 序 列 所 有 的 注释 行 ,“1” 
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表示 第 一 条 记录 的 序列 内 容 ， 以 此 类 推 。 
seqs <- tapply(as.vector(my_fasta[, 3]), factor(my_fasta[, 1]), paste, collapse ="", simplify = 
F); 


# 将 变量 seq 由 数组 类 型 转化 为 字符 串 向 量 ， 不 包括 第 1 个 元 素 〈 所 有 注释 行 )， 剩 下 
的 内 容 为 所 有 记录 的 序列 。 


Seqs <- аѕ.сһагасіег(ѕедѕ [2:length(seqs)]); 


# 从 my_fasta[, 3] 中 提取 所 有 的 注释 行 ， 存 入 向 量 Desc。 ， 
Desc<- as.vector(my_fasta[c(grep("^>", as.character(my_fasta[, 3]), реп =TRUE)), 3]); 


# 建立 一 个 新 的 数据 框 变量 , 名 称 还 是 my_fasta, 每 行 对 应 一 个 序列 记录 , 包括 3 列 信 
息 〈 序 列 的 注释 、 长 度 和 序列 内 容 )。 
my_fasta<- data.frame(Desc, Length =псһаг(ѕедѕ), seqs); 


# 从 my_fasta 第 1 列 的 注释 行 中 提取 序列 的 ID(Accession Number)。 
Acc<- gsub(".*gb\l(.*)\|.*", "\1", as.character(my_fasta[, 1]), perl = Т); 


# 将 字符 串 向 量 Acc 添加 到 数据 框 左边 ， 成 为 一 列 。 
my_fasta<- data.frame(Acc, my_fasta); 


# 将 my_fasta 返回 ， 这 是 习惯 性 的 ，R 把 最 后 出 现 的 数据 作为 返回 值 。 
my_fasta; 
} 


В. 定义 模式 匹配 函数 pattern_match' 


实现 如 下 功能 : 

外 计算 自 定 义 模 序 在 所 有 蛋白质 序列 中 的 匹配 位 点 和 次 数 ; 

@ 输 出 匹配 次 数 超过 某 一 阔 值 的 蛋白 质 序列 到 文件 Hit sequences.fasta; 

(BHit_sequences.fasta 中 的 序列 要 求 用 小 写字 母 ， 匹 配 的 部 分 用 大 写 ; 

@ 返 回 一 个 数据 框 对 和 象 , 每 行 对 应 一 个 匹配 的 蛋白 质 序列 , 包括 4 列 信息 (序列 的 Асс, 
序列 注释 信息 ， 序 列 长 度 ， 用 “, ”分割 的 匹配 的 所 有 位 点 、 匹 配 次 数 和 和 蛋 白质 序列 )。 

R 语言 代码 如 下 : 


pattern_match<- function(pattern, sequences, hit_num) { 


# 获取 正则 表达 式 pattern 表示 的 模 序 在 所 有 序列 中 出 现 的 位 置 (未 找到 匹配 将 返回 -1)， 
所 有 位 置 存 入 一 个 列表 对 象 pos，perl=T 表示 兼容 реп 的 正则 表达 式 格式 。 
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роѕ<- gregexpr(pattern, as.character(sequences[, 4]), perl= Т); 
# lapply 函数 调用 paste 函数 的 字符 串 连 接 功 能 ， 对 ров 中 的 每 个 成 员 的 第 一 个 元 素 操 


即 用 去 号 连接 成 一 个 字符 串 ， 再 用 unlist 将 所 得 的 列表 转换 为 向 量 posv。 
роѕу<- unlist(lapply(pos, paste, collapse =", ")); 


作 


`~ 


# 将 向 量 posv 中 值 为 -1 的 项 赋值 为 0， 即 表示 该 序列 中 未 找到 模 序 pattern. 
роѕу[роѕу == -1] <- 0; 


# lapply 函数 调用 自 定义 函数 function， 根 据 pos 中 的 每 一 个 元 素 ， 计 算 pattern 在 每 条 
序列 中 匹配 的 个 数 ， 再 由 unlist 函数 将 结果 转变 为 向 量 。 
hitsv<- unlist(lapply(pos, function(x) if (x[1] == -1) {0} else {length(x)})); 


# 产生 一 个 数据 框 类 型 的 结果 sequences， 保 留 了 原来 sequences 数据 的 第 1、2、3、4 
列 ， 又 插入 了 2 列 ， 即 匹配 位 点 (Position) 和 匹配 次 数 〈Hits )。 

sequences <- data.frame(sequences[, 1:3], Position = as.vector (posv), Hits =hitsv, 
sequences], 4]); 


# 找 出 匹配 次 数 大 于 hit num 的 序列 ， 并 将 大 写 形式 替换 为 小 写 ，gsub 中 第 一 个 参数 
[A-Z] 匹 配 任意 大 写字 母 ,“NLN1” 表 示 将 前 面 小 括号 中 匹配 的 任意 字母 蔡 换 为 其 小 写 形式 。 
тар <- gsub("([A-Z])", "МАМ", as.character(sequences[sequences[, 5]> hit пит, 6]), реп = 

Т, ірпоге.саѕе = Т); 


# 为 模 序 pattern 加 上 小 括号 ， 以 适合 реп 正则 表达 式 格式 ， 方 便 下 面 使 用 。 
pattern2 = paste("(", pattern, ")", sep =""); 


# 将 tag 序列 中 ， 和 模 序 pattern 匹配 的 部 分 替换 为 大 写 ， 原 理 同 上 ,“\NUN1” 表 示 替 换 
为 大 写 。 


tag<- gsub(pattern2, "\U\N1", tag, perl = Т, ignore.case = Т); 


# 找 出 匹配 次 数 大 于 hit num 的 序列 ， 并 将 序列 内 容 蔡 换 为 tag 中 的 序列 内 容 ， 存 于 数 
据 框 export。 


export<- data.frame(sequences[sequences[, 5] > hit num,-6],tag); 


# Асс 号 前 添加 fasta 格式 标识 “>”， 得 到 数据 框 export， 第 1 列 是 Acc， 第 2 列 是 小 写 
字母 表示 的 蛋白 质 序列 (模式 用 大 写 表示 )。 


export<- data.frame(Acc =paste(">", export[, 1], sep =""), seq = export[,6]); 


# 数据 框 export 矩阵 转 置 输出 ， 到 文件 Hit_sequences.fasta (fasta 文件 格式 )。 
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write.table(as.vector(as.character(t(export))), file = "Hit_sequences.fasta", quote = F, 
тоу.патеѕ = F, со]. патеѕ = F); 


# 输出 提示 信息 。 


cat(" 含 有 模 序 \"", pattern, "\" 27", Һи пит, "个 的 所 有 有 蛋 和 白质 序 列 已 写 入 当前 工作 目录 
下 文件 "Hit _ sequences.fasta"，"\n", sep =""); 


# 选中 匹配 次 数 〈sequences 的 第 5 列 ) 大 于 hit_num 的 序列 。 


selected<- sequences[sequences[, 5] >hit_num, ]; 


# 输出 提示 信息 。 
cat(" 极 端 嗜 盐 古 菌 和 蛋白 组 中 以 下 序列 含有 模 序 \""，pattern,"\" 的 数量 超过 2 个 : "，"\n"， 


sep =" "у 


# 输出 选中 序列 的 第 1 到 5 列 到 终端 ， 第 6 列 是 序列 内 容 太 长 ， 不 显示 。 
print(selected[, 1:5]); 


# 返回 选中 序列 。 
selected; 


} 


С. 定义 氨基 酸 含量 统计 函数 'getAApercentage' 


实现 如 下 功能 : 

统计 输入 的 每 条 和 蛋白 序列 的 氨基 酸 百 分 比 合 量 ; 

结果 返回 一 个 数据 框 格式 的 变量 ， 每 行 是 一 种 氨基 酸 ( 共 20 行 )， 每 列 对 应 一 条 序 
列 ; 

@ 同 时 把 百分比 舍 量 计算 结果 输出 到 文件 “AApercentage.csv”。 

R 语言 代码 如 下 : 


getAApercentage<- function(sequences) { | 

# 生成 一 个 包含 20 种 标准 氨基 酸 单字 母 简写 的 数据 框 AA。 

АА <- data.frame(AA =с("А", "С", "D", "Е", "Е", "С", "Н", "Т", "К", "L", "М", "М", "Р", 
"О" IR БЛ ТТ", "ү" түтүгү 


# strsplit 函数 将 序列 内 容 sequences[, 6] 转 换 成 字符 数组 , lapply 函数 调用 table 函数 统计 
每 条 序列 中 各 字符 (氨基 酸 ) 出 现 的 次 数 。 
AAstat<- lapply(strsplit(as.character(sequences[, 6]), ""), table); 


С 54 R 语言 与 Bioconductor 生物 信息 学 应 用 


# 下 面 循 环 每 次 处 理 一 条 序列 ， 全 部 序列 共 length(AAstat) 条 。 
for (i in 1:length(AAstat)) { 

# 计算 每 条 序列 中 20 种 氨基 酸 出 现 的 百分比 。 

AAperc<- AAstat[[i]]/sequences[, 3][1] * 100; 


# 转换 为 数据 框 ， 第 1 列 是 氨基 酸 种 类 ， 第 2 列 是 百分比 含量 。 
AAperc<- as.data.frame(AAperc); 


# 将 数据 框 第 2 列 名 称 改 为 第 i 条 序列 的 Асс. 


names(AAperc)[2] <- as.vector(sequences[i, 1]); 


# 通过 АА 中 的 列 名 为 “AA” 的 列 和 AAperc 中 列 名 为 “Varl1” 的 列 之 间 的 元 素 同名 
映射 合并 #AA 和 AAperc， 并 产生 一 个 新 的 对 象 AA 保存 结果 ， 这 样 做 实质 就 是 按照 “AA” 
的 20 种 氨基 酸 的 顺序 不 断 添加 在 每 个 序列 中 的 分 布 数据 ， 每 个 循环 至 少 一 列 。 

АА <- merge(AA, AAperc, byx ="АА", by.y ="Var1", all = Т); 

} 

# 循环 结束 。 


# 将 АА 中 氨基 酸 种 类 或 百分比 为 “NA” 的 项 赋值 为 0。 
for (i in 1:length(AA[[1]])) { 

# 外 循环 总 次 数 是 20〈 种 氨基 酸 )。 
for (j іп 1:length(AA)) { 

# 内 循环 总 次 数 是 序列 总 数 +1。 

if (1ѕ.па(АА[і, j])) { 

# 如 果 发 现 “NA” 

ААП, j] <- 0; 

# 将 换 为 0。 

} 

| ` 

} 

# 循环 结束 。 


# 统计 所 有 序列 中 每 种 氨基 酸 出 现 的 平均 百分比 ， 放 入 АА 最 后 一 列 。 
AApercentage <- data.frame(AA, Mean =арріу(АА[, 2:length(AA)], 1, mean, na.rm = Т)); 


# 将 对 象 AApercentage 输出 到 同名 的 csv 文件 。 


write.csv(AApercentage, file =" A Арегсепїаре.с$у", row.names = Е, quote = F) ; 


# 提示 计算 完成 。 
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cat(" 氨 基 酸 分 布 数据 已 经 写 入 当前 工作 目录 下 的 文件 'AApercentage.csv", "\п"); 


# 返回 AApercentage。 
AApercentage; 
} 


D. 定义 两 两 比 对 函数 'seq_alignment 


实现 如 下 功能 : 
调用 外 部 程序 “needle” 完 成 所 有 序列 的 两 两 比 对 ， 结 果 存 入 文件 。 
R 语言 代码 如 下 : 


seq_alignment<- function(sequences) { 

# shel 可 调用 操作 系统 命令 ,命令 以 字符 串 形式 给 出 ，del 为 Windows 系统 上 的 删除 命 
S, 选项 表示 强制 删除 只 读 文件 ，my_needle_file 为 所 要 删除 的 文件 名 ， 这 样 做 的 目的 是 
删除 上 次 程序 运行 的 结果 文件 ， 和 否则 本 次 运行 结果 会 追加 写 入 上 次 的 结果 文件 。 

shell("del /f my_needle_file"); 


# 下 面 循环 每 次 写 一 条 序列 存 入 file1， 另 一 条 存 入 file2, 然后 调用 needle 程序 做 比 对 ， 
这 样 每 次 都 是 对 比 两 条 序列 ， 结 果 追 加 写 入 结果 文件 。 
for (i in 1:length(sequences[, 1])) { 


# 第 1 条 序列 写 入 filel (fasta 格式 )。 


cat(as.character(paste(">",as.vector(sequences[i,1]),sep="")),as.character(as.vector(sequences 
[1, 6])), file = "filel", вер ="\а"); 


for (j іп 1:length(sequences[, 1])) { 

# 第 2 条 序列 写 入 file2 (fasta 格式 )。 

са(аѕ.сһагасіег(раѕіе(">",аѕ.уесіог(ѕедиепсеѕ/[),1]),ѕер="")),аѕ.сһагасіег(аѕ.уесіог(ѕедиепсеѕ 
D, 6])), file ="file2", вер ="\n"); 


# 调用 needle 程序 对 比 filel 和 file2 中 的 序列 ， 结果 追加 写 入 文件 “imy_needle_file”。 
shell( needle filel file2 stdout -gapopen 10.0 -gapextend 0.5 >> ту пеейіе 61е"); 
} 
} 
# 提示 结果 。 
cat("Needle 程序 完成 所 有 序列 的 两 两 比 对 ， 结 果 存 入 文件 \"my_needle_file\"\n"); 
} 
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El. 定义 函数 'getScoreMatrix' 求 得 分 矩阵 


实现 如 下 功能 : 

Q 读 取 比 对 结果 文件 “my_needle йе”; 

@@ 基 于 两 两 比 对 得 分 ， 生 成 得 分 矩阵 ， 求 倒数 得 到 距离 矩阵 ; 
多 根据 距离 矩阵 得 到 所 有 序列 的 聚 类 关系 ， 并 绘图 ; 


名 返回 得 分 矩阵 作为 结果 值 。 
R 语言 代码 如 下 : 


getScoreMatrix<- function(sequences) { 
# 读 取 my_needel file 中 的 所 有 行 ， 存 入 向 量 score。 
score <- readLines("my_needle #1е"); 


# 查找 以 “# Score” 开 头 的 行 〈 如 # Score: 290.5)， 存 入 向 量 score。 
score <- ѕсоге[ ргер("^# Score", score, регі = Т)]; 


ОКЕАНЕ НОУТ ЕА АЛЕ, АЖИ score 后 面 的 得 分 数字 。 


score <- gsub(".* ", "", as.character(score), perl = Т); 


# 将 字符 向 量 转 为 数值 向 量 。 


score <- as.numeric(score); 


# 将 score 转换 为 n*n 的 数值 矩阵 ，n 为 序列 条 数 length(sequences[, 1])。 
Scorem<-matrix(sScore,length(sequences[,1]),length(sequences[,1]),dimnames=list(as.vector 
(Sequences[, 1]), as.vector(sequences[, 1]))); 


# 得 分 矩阵 求 倒 数 ， 得 到 普通 距离 矩阵 ， 用 as.dist 函数 转换 为 下 三 角 距 离 矩阵 。 


Scorem.dist<- as.dist(1/scorem); 


# 根据 距离 矩阵 ， 调 用 层次 聚 类 函数 hclust 对 所 有 序列 聚 类 。 


hc<- hclust(scorem.dist method = ”complete ); 


# 绘制 层次 聚 类 结果 。 
plot(hc, hang = -1, main ="Distance Tree Based on Needle All-Against-All Comparison", 
xlab =" sequence name", ylab ="distance"); 


# 返回 比 对 得 分 矩阵 。 
ѕсогет; 


} 


第 三 章 RR 在 生物 信息 学 中 的 简单 应 用 57 四 


E2. 定义 函数 'infile_produce' 


实现 如 下 功能 : 
根据 输入 的 得 分 矩阵 得 到 Phylip 格式 的 距离 矩阵 。 
R 语言 代码 如 下 : 


infile, produce<- function(scorem) { 
# 求 得 分 矩阵 倒数 ， 作 为 距离 矩阵 。 


z <- l/scorem:; 


# 计算 scorem 行 或 列 的 长 度 。 
len = sgrt(length(scorem)) ; 


# 将 距离 矩阵 中 对 角 线 赋值 为 0,seq 生成 一 个 从 1 到 length(scorem) 的 向 量 ,by 为 步 长 ， 
向 量 中 的 值 即 对 角 线 元 素 在 z 中 的 位 置 。 
i z[seq(1, length(scorem), by = (len + 1))] <- 0; 


# 利用 round 函数 将 z 中 数值 保留 到 小 数 点 后 7 位 。 


z <- round(z, 7); 


# 输出 len 长 度 信息 到 infile。 


write.table(len, file = "infile", quote = F, row.names = F, col.names = F) ; 


# 追加 (append=T) 输出 距离 矩阵 z 到 infile。 
write.table(as.data.frame(z), file ="infile", append = T, quote = Е, col.names = F, sep ="\"); 


# 结果 提示 。 

cat("Phylip 格式 的 距离 矩阵 已 经 输出 到 工作 目录 下 名 为 infile' 的 文件 ， 以 便 使 用 Phylip 
软件 继续 进行 分 析 。", "\а"); 

} 


3.22 课题 实现 


我 们 用 三 板 和 斧 方 法 ， 运 行 前 面 定 义 的 所 有 函数 ， 显 示 结 果 ， 完 成 整个 课题 。 

首先 ,将 下 载 的 数据 文件 *AE004437.faa” 存 放 到 及 的 工作 目录 “C:/workingdirectory” 
进入 RR 主 程序 ， 然后， 加 载 程序 运行 需要 的 R 包 ， 由 于 本 例 中 所 有 程序 只 是 调用 了 R 基本 
包 ，R 主 程序 运行 时 会 自动 加 载 ， 不 需要 另外 加 载 R 包 ; 最 后 ， 拷 贝 前 面 所 有 定义 的 函数 ， 
粘贴 到 R 主 程序 , 回 车 ; 开始 逐个 运行 下 面 的 函数 ,或 全 部 运行 A 到 E2 得 到 结果 文件 “infile”。 
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А. 调用 函数 'seq_import 导 入 数据 


setwd("C:/workingdirectory"); 
my_file<- "AE004437.faa"; 
my_sequences<- seq_import(input_file = my_file); 


B. 调用 函数 pattern_match' 寻 找 模 序 


hit_sequences<- pattern_match(pattern ="H..H{1,2}", sequences = my_sequences, hit num 
=2) 


С. 调用 函数 'getAApercentage' 统 计 和 氨基 酸 百 分 含 量 


AA_percentage<- getAApercentage(sequences = hit_sequences) 


D. 调用 函数 'seq_alignment' 进 行 序列 两 两 比 对 


该 函数 用 到 了 欧洲 分 子 生物 学 开放 软件 包 (The European Molecular Biology Open 
Software Suite, EMBOSS) 中 的 “needle.exe” 程 序 。 首 先 直接 进入 EMBOSS 官网 的 ftp Н 
3K ftp://emboss.open-bio.org/pub/EMBOSS/windows/， 可 以 看 到 当前 最 新 的 版 本 (支持 
Windows 平台 )， 本 书 使 用 的 是 “mEMBOSS-6.4.0.4-setup.exe”。 下 载 后 默认 安装 即 可 ， 然 
后 执行 下 列 R АЈ: 


seq_alignment(sequences = hit_sequences) 


Е1. 调用 函数 'getScoreMatrix' 得 到 得 分 矩阵 


score_matrix<- getScoreMatrix(sequences = hit sequences) 


E2. 调用 函数 'infile_produce' 生 成 PHYLIP 软件 的 输入 文件 infile 


infile_produce(scorem = Score_matrix) 


E3. 调用 PHYLIP 软件 生成 进化 树 


该 函数 用 到 了 系统 发 生 推 断 软件 包 (һе PHYLogeny Inference Package，PHYLIP)。 首 
先 登 录 PHYLIP 软件 包 官 网 (http:/evolution.genetics.washington.edu/ phylip/getme.html)， 下 
载 自 解压 文件 “self-extracting archive of PHYLIP 3.69 for Windows”( 也 有 可 能 是 其 他 版 本 )， 
下 载 后 解压 到 一 个 文件 夹 中 即 可 使 用 。 进 入 该 文件 夹 的 子 目 录 “exe”， 双 击 运 行程 序 
“neighbor.exe” 将 上 一 步 生 成 的 结果 文件 “infile” 拖 入 到 neighbor 窗口 (图 3-2), ЛҮ”, 
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并 按 下 回 车 键 运行 ,运行 后 ， 生 成 两 个 输出 文件 :“outfile” 和 “outtree”。 两 个 文件 都 是 文 
本 文件 ， 前 者 方便 阅读 ， 后 者 主要 是 用 于 其 他 软件 的 输入 。 


图 3-2 调用 PHYLIP 软件 生成 进化 树 
E4. 进 化 树 的 查看 与 编辑 


在 “neighborexe” 同 一 目录 下 ， 有 另外 一 个 程序 “retree.exe”， 可 以 查看 和 编辑 该 进化 
树 。 首 先 将 文件 “outtree” 改 名 为 “intree”， 作 为 程序 retree 的 输入 文件 ， 开 始 运行 retree 
后 ， 需 要 将 Graphics type 由 ІВМ РС 改 为 “none”( 输 入 0 并 按 下 回 车 ， 重 复 2 次 )， 然 后 在 
提示 下 输入 “Y” 并 按 下 回 车 ， 即 可 看 到 图 3-3。 


тт 


\/ D 


3-3 ”调用 PHYLIP 查看 和 编辑 进化 树 
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如 果 想 用 多 种 方式 来 查看 该 进化 树 ， 还 可 以 使 用 软件 TreeView, em 
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html， 选 择 合 适 的 版 本 下 载 ， 默认 安装 后 运 
TreeView， 打 开 文 件 “outtree”， 即 可 看 到 图 3-4。 


AAG19561.1 
AAG19119 1 
AAG19534 1 


AAG20213.1 


AAG19981.1 


AAG20267.1 


AAG19157.1 


AAG20282.1 


3-4 ”调用 TreeView 查 看 进化 树 
3.2.3 ” 源 代 码 详 解 与 小 结 


А. 函数 'seq_import' 


进入 函数 “seq_import” 的 内 部 ， 解 析 该 函数 的 代码 。 首 先 ， 找 贝 下 面 代码 行 ， 粘 贴 到 
R 主 程序 并 运行 ， 可 以 查看 整个 程序 的 核心 数据 结构 一 一 数据 框 “my_fasta” 的 前 20 行内 容 。 


setwd("C:/workingdirectory"); 

fileloc<- "AE004437 .faa"; 

my_fasta<- readLines(fileloc) ; #11 

my._ fasta<- data.frame(index, у, my. fasta); #22 
my_fasta[1:20,] 


从 图 3-5 中 ， 可 以 很 清楚 地 看 出 这 个 程序 的 总 体 思路 就 是 对 最 后 一 列 〈 列 名 是 
“my_fasta”) 的 每 个 元 素 〈 对 应 读 入 的 fasta 文件 的 每 一 行 ) 进行 标注 ， 标 注 的 信息 保存 在 
第 一 列 “index” “1” 表 示 这 行 属于 第 1 条 序列 ,“2” 表 示 这 行 属于 第 2 条 序列 ， 以 此 类 推 。 
从 行 #11 到 行 #22 的 所 有 步骤 都 是 为 了 实现 这 一 目的 。 

247214: 


> my Ёазга(1:20,] 


кә шю со +з о (л Ь ND Hi 


H p 
о кюю ю о 


© 


起 ， 类 别 “0” 是 所 有 序列 记录 的 描述 ， 


index 


rerb ә 和 


ь о фо ©) о о о ©) м м № № һә > 
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пу fasta 


>6411105796501сЫ|АА618645.1| hypothetical protein ҮМС 00019 [Halobacterium зр. NRC-1] 


MTRRSRVCAGLAAIVLALAAVSAAAPIACGAQSAGSGAVSVTIGDVDVSPANPTTGTQVLITPSINNSGSA 
SGSARVNEVTLRGDGLLATEDSLGRLGAGDSIEVPLSSTFTE PGDSRLSVHVRGLNPDGSVEYYV| ОАЅҮҮҮ 
TVDDRTSDVGVSARTTATNGSTDIQATITQYGTIPIXSGELQVVYSDGRIVERAPVANVSESDSANVTFDG 
ASIPSGELVIRGEYTLDDEHSTAHTTINITLTYQPQARSADVALTGVEASGGGTTYTISGDAANLGSADAASY 
RVNAVGDGLSANGGYFVGXIETSEFATFDMTVQADSAVDEIPITVNYSADGORYSDVVTVDVSGASSGSA 

TSPERAPGOQQKRAPSPSNGASGGGLPLFKIGGAVAVIAIVVVVVRRWRNP 


>gi|10579651|gb]AAG18646.1| amino acid ABC transporter, ATP-binding protein [Halobacterium sp. NRC-1) 


MSIIELEGVVKRYETGAETVEALKGVDFSAARGEMVTVVGPSGSGXSTMLNMIGLLDSPTAGSVILDGQD 
VIGFSEDERTEERRAELGFVFQSFHLLPMLTAVENVELPSMWDTSVDRHDRAVDLLERVGLGDRLTHTPG 
ELSCCQQQRVAIARSLINEPEILLADEPTGNLDQETGGTILTEMQRLTEEENIAVVAITHDTQLEEFSDR 

AVNLVDGVLET 


>gi|10579652|gb|AAG18647.1| conserved hypothetical protein [Halobacterium зр. NRC-1] 


MAWRNLERNRVRTALAALGIVIGVISIASMGMASAAINQQASAQLGDLENKVSVTSGEDAEEYGITQAQV 
ERIDDLVSAGTVVEQKSDSTSLSSRAGTVDVVTVTAVTEVAEPYNITSANPPETLHSGALLTNQTAETLG 
LGVGDPVXYDGSLYRIRGIITITTSRFGGFAELVVPLSAMADQDEYDTVDIYADSGSDAARIADRLDSEFN 
SYGRTEEKILEIRSTSDAREGVNNFMRTLKLGLLGIGSISLLVASVAILNVMLMSTIERRGEIGVLRAVG 
IRRGEVLRMILTEAMFLGAVGGLVGSLASLGVCAFIFDXITQNAMDVLVWPSSKYLVYGFLFAVFASLLS 

GLYPAWKAANDPPVEALGE 


>gi|10579653|gb|AAC18648.1| hypothetical protein VNG 00058 [Halobacterium зр. NRC-1] 


图 3-5 ”函数 'seq_import' 的 核心 数据 结构 一 


如 果 我 们 再 运行 下 面 的 代码 , 并 再 次 查看 改变 后 的 “my_fasta” 的 前 20 行 数据 (图 3-6)， 
就 会 发 现 主要 的 变化 是 : 第 1 列 Cinde 中 所 有 对 应 第 2 Ж (“у”) 为 0 的 项 也 都 改 为 了 
0， 这 是 为 了 后 面 分 类 合并 做 准备 。 将 第 1 列 类 别 相同 的 部 分 所 对 应 的 第 3 列 数据 合并 到 一 


类 推 。 
my_fasta[my_fastal, 2] == 0, 1] <- 0; 


һ о со 2 оу (л > юе 


Imy_fasta[1:20,] 
运行 结果 : 


> my_fasta[1:20,] 


іпдех 


оо ошоо о о о № NN N оњ нь ю ҥ о 


类 别 “1” 是 第 一 条 序列 的 氨基 酸 序列 全 长 ， 以 此 


my_fasta 


>gi|10579650|gb|AAG18645.1] hypothetical protein VNG 0001H [Halobacterium зр. МАС-1] 


MTRRSRVGAGLAAIVLALAAVSAAAPIAGAQSAGSGAVSVTIGDVDVSPANPTTGIQVLITPSINNSGSA 
SGSARVNEVILRGDGLLATEDSLGRLGAGDSIEVPLSSTFTEPGDRQLSVHVRGLNPDGSVFYVQRSVYV 
TVDDRTSDVGVSARTTATNGSTDIQATITQYGTIPIKSGELQVVSDGRIVERAPVANVSESDSANVTFDG 
ASIPSGELVIRGEYTLDDEHSTHTINTTLTYQPORSADVALTGVEASGGGTTYTISGDAANLGSADAASV 
RVNAVGDGLSANGGYFVGKIETSEFATFDMTVQADSAVDEIPITVNYSADGQRYSDVVTVDVSGASSGSA 

TSPERAPGQQQKRAPSPSNGASGGGLPLFKIGGAVAVIAIVVVVVRRWRNP 


>gi|10579651|gb|AAG18646.1| amino acid ABC transporter, ATP-binding protein [Halobacterium зр. NRC-1] 


MSIIELEGVVKRYETGAETVEALKGVDFSAARGEMVTVVGPSGSGKSTMLNMIGLLDSPTAGSVTLDGEQD 
VTGFSEDERTEERRAELGFVFQSFHLLPMLTAVENVELPSMWDTSVDRHDRAVDLLERVGLGDRLTHTPG 
ELSGGQQQRVAIARSLINEPEILLADEPTGNLDQETGGTILTEMQRLTEEENIAVVAITHDTQLEEFSDR 

AVNLVDGVLAT 


>gi|10579652|9gb|AAG18647.1| conserved hypothetical protein [Halobacterium зр. NRC-1] 


MAWRNLGRNRVRTALAALGIVIGVISIASMGMASAAINQQASAQLGDLGNKVSVISGEDAEEYGITQAQV 
ERIDDLVYSAGTVVEQKSDSTSLSSRAGIVDVVIVIAVIEVAEPYNITSANPPETLHSGALLINQTIAETLG 
LGVGDPVKYDGSLYRIRGIITTTSRFGGFAELVVPLSAMADQDEYDIVDIYADSGSDAARIADRLDSEFN 
SYGRTEEXILEIRSTSDAREGVNNEMRTLKLGLLGIGSISLLVASVAILNVMLMSTIERRGEIGVLRAVG 
IRRGEVLRMILTEAMFLGAVGGLVGSLASLGVGAFIFDKITQNAMDVLVWPSSXYLVYGFLFAVFASLLS 

GLYPAWKAANDPPVEALGE 


>gi|10579653|gb|AAG18648.1| hypothetical protein VNG_0005H [Halobacterium sp. МАС-1] 


图 3-6 ”函数 'seq_import' 的 核心 数据 结构 二 
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运行 下 面 代码 实现 同类 合并 , 并 再 次 查看 改变 后 的 “seq” 的 前 3 行 数据 ， 就 会 发 现 “0” 
包括 所 有 序列 的 注释 内 容 ,“1” 包 括 序列 的 全 部 氨基 酸 ,“2” 包 括 序列 2 的 全 部 氨基 酸 ( 结 
果 不 再 显示 )。 | 

seq<- tapply(as.vector(my_fasta[, 3]), factor(my_fasta[, 1]),paste, collapse ="", simplify = 
F);seq[1:3] 

seq[1:3] 


В. 函数 pattern_match' 


模式 匹配 这 部 分 的 一 个 核心 概念 就 是 正则 表达 式 。 字 符 串 模式 通常 用 正则 表达 式 表 示 ， 
本 例 中 的 “H..H{1,2}” 表 示 这 个 模式 由 1 个 组 氨 酸 (H) + 任意 2 个 氨基 酸 +1 个 或 2 个 组 氮 
酸 组 成 ， 符 合 这 个 定义 的 串 ， 就 会 匹配 。 另 外 一 个 模式 “[A-Z]” 表 示 所 有 的 A 到 Z 范围 内 
的 大 写字 母 。 正 则 表达 式 的 匹配 或 者 替换 会 调用 函数 “gregexpr” 和 “gsub”， 程 序 运 行 完 
毕 可 以 调用 函数 “cat” 向 屏幕 输出 提示 ， 这 几 个 函数 的 用 法 可 以 参考 附录 。 

程序 运行 后 得 到 一 个 含有 8 条 序列 信息 的 数据 框 变量 ， 这 个 数据 框 的 6 列 分 别 表示 了 
序列 的 Acc、 序 列 的 注释 信息 、 序 列 长 度 、 本 条 序列 包含 模式 的 位 置 (用 “,” 分 割 )、 本 条 
序列 包含 模式 的 数量 以 及 序列 内 容 ， 图 3-7 显示 了 前 5 列 内 容 。 
ана M o о ГАВЕА ВЗР Hi sequences Tasta! | 
极端 嗜 盐 古 菌 蛋 白 组 中 以 下 序列 含有 模 序 "a. .Bf1,2}" 的 数 号 超过 2 个 : 


Асс 
475 ААС19119.1 


513 ААС19157.1 
890 ААС19534.1 
917 ААС19561.1 
1337 ААС19981.1 
1569 AAG20213.1 
1623 AAG20267.1 
1638 AAG20282.1 
резс 
275 >61110580203|4|12А619119.1| hypothetical protein VNG 0611Н [Halobacterium зр. NRC-1] 
513 >41110580249|50|А4А619157.1| cytochrome с oxidase subunit ІІІ [Halobacterium зр. NRC-1] 
890 >gi|10580690 |gb|2AG19534.1] glutamyl-tRNA synthetase [Halobacterium зр. МАС-1] 
917 >gi|10580721 |gb]AAG19561.1| membrane protein [Halobacterium зр. NRC-1] 
1337 >91110581208 |96|АА619981.1| photolyase/cryptochrome [Halobacterium зр. МЕС-1] 
1569 >gi|10581480 |gb|AAG20213.1| ATP-binding protein [Halobacterium зр. МЕС-1] 
1623 >gi]10581542|gb|AAG20267.1| conserved hypothetical protein [Halobacterium зр. МАС-1] 
1638 >gi|10581559|gb|AAG20282.1] H+-transporting ATP synthase subunit I [Halobacterium зр. NRC-1] 
Length Position Hits 
475 326 26, 89, 203 3 
513 285 11, 164, 227 3 
890 586 121, 335, 459 3 
917 379 80, 135, 177, 282 4 
1337 462 92, 121, 167 3 
1569 273 80, 202, 249 3 
1623 325 17, 72, 281 3 
1638 722 315, 615, 635 3 


>| 


图 3-7 选中 序列 模式 匹配 后 所 包括 的 信息 
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С. 函数 'getAApercentage' 


这 部 分 的 核心 就 是 第 一 个 “for” 循 环 语句 ， 这 个 语句 每 次 处 理 一 条 序列 ， 统 计 这 条 序 
列 中 20 种 氨基 酸 的 百 分 含 量 ， 结 果 存 放 到 一 个 数据 框 变量 中 (图 3-8)。 该 数据 框 的 第 1 列 
是 所 有 氨基 酸 的 类 型 ， 后 面 每 列 是 一 条 序列 中 的 各 类 型 氨基 酸 的 百分比 含量 。 这 个 计算 过 
程 是 最 开始 只 有 一 列 ， 每 次 循环 计算 后 添加 一 列 ， 直 到 全 部 序列 的 计算 工作 完毕 ， 再 添加 
一 列表 示 平 均 百 分 含量 。 


> АА percentage 

АА AAG19119.1 AAG19157.1 ААб19534.1 AAG19561.1 AAG19981.1 ААб20213.1 AAG20267.1 AAG20282.1 Mean 
1 А 3.6809816 11.5789474 10.2389073 77.6517150 15.8008658 13.1868132 10.153846 11.7728532 10.508116 
2 С 0.6134969 0.0000000 0.8532423 0.7915567 0.0000000 1.4652015 2.153846 0.0000000 0.734668 
3 D 7.0552147 3.1578947 11.6040956 8.9709763 12.1212121 11.3553114 9.846154 8.1717452 9.035325 
4 Е 10.7361963 2.8070175. 9.0443686 4.4854881 4,1125541 4.3956044 8.000000 7.4792244 6.382557 
5 Е 3,6809816 8.4210526 3.2423208 2.9023747 2.8138528 3.6630037 3.692308 5.2631579 4,209881 
6 5.8282209 13.6842105 8.1911263 10.5540897 4.7619048 8.7912088 6.153846 9.9722992 8, 492113 
7 5.2147239 3.8596491 3.4129693 5,5408971 4.5454545 4.7619043 4, 615385 2.9085873 4.357446 
8 7.3619632 5,6140351 3.2423208 5.0131926 1,5151515 2.1978022 1.538462 3.7396122 3.777817 
9 6.1349693 0.7017544 1,7064846 3.4300792 1,0822511 1,8315018 1.846154 1.8005540 2.316719 


10 7.3619632 9.4736842 5.2901024 4,2216359 7.5757576 8.7912088 7.384615 12.0498615 7.768604 
11 1.8404908 2.1052632 2,9010239 3.9577836 0. 6493506 1.0989011 2.461538 1,8005540 2,101863 
12 3.0674847 1,0526316 1,8771331 2,9023747 2,8138528 0.3663004 2.153846 1.2465374 1.935020 
14 4.2944785 1.0526316 2.2184300 3.1662269 3.0303030 0.7326007 2.461538 1,9390582 2.361908 
15 5.8282209 31578947 8.5324232 4,4854881 8.6580087 6.9597070 8.307692 3.1855956 6.139379 
16 9.5092025 7.7192982 3.9249147 3.9577836 3.8961039 3.2967033 4.000000 5.9556787 5.282461 
17 4,6012270 5.2631579 3,7542662 8,.9709763 5.194052 8,7912088 6.769231 5,.9556787 6.162569 


4.6012270 10.5263158 9.2150171 7,3878628 8.4415584 9.1575092 8.000000 8.5872576 8.239593 
1.2269939 3.1578947 1.3651877 0.7915567 2,1645022 0.0000000 2.153846 0.8310249 1, 461376 


б 
Н 
І 
К 
L 
М 
N 
13 P 4,2944785 2.1052632 6,1433447 7.6517150 6.2770563 6.2271062 5.846154 4.0166205 5.320217 
Q 
R 
5 
T 
V 
W 
Y 3.0674847 4,5614035 3.2423208 3.1662269 4,5454545 2.9304029 2.461538 3.3240997 3.412366 


3-8 ”选中 序列 的 20 种 氨基 酸 百分比 含量 
D. 函数 'seq_alignment' 


序列 两 两 对 比 可 以 得 到 序列 两 两 之 间 的 相似 性 得 分 ， 这 是 下 一 步 构 建 距离 矩阵 和 进化 
树 的 基础 。 本 程序 的 核心 是 通过 内 外 两 重 循环 反复 调用 外 部 函数 来 计算 两 两 比 对 得 分 。R 
有 自己 的 函数 可 以 完成 这 个 功能 ， 这 里 之 所 以 调用 外 部 函数 ， 是 为 了 介绍 R 与 其 他 程序 交 
互 的 一 种 很 重要 的 方式 ， 即 操作 系统 调用 可 执行 文件 。 在 Windows 操作 系统 上 ， 其 调用 格 
式 就 是 “shell 〈 “命令 行 ')” 在 Linux 系统 上 ,“system (命令 行 :)”。 值 得 注意 的 是 ， 采 
用 这 种 方式 编写 的 R 语言 ， 为 了 获得 操作 系统 调用 的 功能 而 损失 了 程序 的 跨 平台 能 力 。 图 
3-9 是 得 到 的 两 两 比 对 的 结果 文件 。 
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р##ЕссссЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕ ЕЕЕ HHE 
# Program: needle 

$ Rundate: Wed 5 Dec 2012 12:12:19 

# Commandline: needle 

[-asequence] fileli 

[-bsequence] file2 

[-outfile] stdout 

-gapopen 10.0 

-gapextend 0.5 

# Align format: srspair 

# Report file: stdout 
НАННННННННННННННННННННЕЕ ЕЕРЕЕ ЕЕ + + Ез 


‚= 种 种 + ан 


ф===========-== 

# 

# А1їдпеа sequences: 2 

# 1: AAG19119.1 

# 2: AAG20267.1 

# Matrix: EBLOSUM62 

# Gap_penalty: 10.0 

# Ехсепа репа1су: 0.5 

# 

# Length: 419 

# Identity: 74/419 (17.7%) 

# Similarity: 111/419 (26.5%) 

# Сарз: 187/419 (44.6%) 

Score: 35.5 

+======================================= 

ААб19119.1 SE MGITKQ 
| ss 

ААСбС20267.1 1 MSESDGPKQVDDPDYHHENHTAAQTCGWTANAMRGEGTCYKHAFYGIRSH 


图 3-9 选中 序列 的 两 两 对 比 结果 


前 面 第 二 章 介 绍 了 构建 进化 树 往往 需要 多 重 比 对 而 不 是 两 两 比 对 。 这 里 之 所 以 用 两 两 
比 对 ， 除 了 速度 方面 的 考虑 外 ， 更 重要 的 是 多 重 比 对 对 于 含有 重复 序列 〈 包 括 简单 重复 序 


AD 的 部 分 处 理 的 结果 不 是 很 理想 ， 更 多 的 内 容 请 参考 相关 资料 。 


Е1. 函数 'getScoreMatrix' 


这 部 分 主要 是 通过 分 析 上 面 得 到 的 比 对 结果 文件 , 得 到 一 个 8*8 的 得 分 矩阵 “scorem”， 
作为 “getScoreMatrix” 函 数 的 返回 值 。 后 面 再 由 函数 “as.dist” 将 得 分 矩阵 “scorem” 转 换 
为 一 个 下 三 角 距 离 矩阵 “scorem.dist?”， 用 来 聚 类 8 条 序列 。 聚 类 函数 “hclust” 先 产生 一 个 
对 象 “hc”， 包 括 了 聚 类 的 结果 ,“plot” 函 数 用 来 显示 聚 类 结果 “hc”( 图 3-10)。 从 图 3-10 
可 以 看 到 8 条 序列 的 聚 类 结果 ， 需 要 注意 的 是 虽然 这 个 图 和 后 面 的 进化 树 的 图 非常 相似 ， 
但 是 两 者 并 不 相同 ， 构 建 进化 树 需要 按照 一 定 的 算法 来 应 用 距离 矩阵 ， 代 表 了 普通 聚 类 不 


具备 的 生物 学 意义 。 
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0.20 


distance 


E2. 函数 'infile_produce' 


0.10 


0.00 


Distance Tree Based on Needle All-Against-All Comparison 


AAG19157.1 


AAG19119.1 
AAG19561.1 
AAG19534.1 
AAG20267.1 


sequence name 
hclust (*, "complete") 


AAG20282.1 
AAG19981.1 
AAG20213.1 


图 3-10 ”选中 序列 的 聚 类 图 


这 个 函数 根据 前 面 得 到 的 得 分 和 矩阵， 得 到 符合 PHYLIP 软件 包 要 求 的 输入 文件 “infile” 
(图 3-11)。 输 入 文件 第 一 行 是 序列 的 个 数 ， 下 面 是 一 个 8*8 的 距离 矩阵 。 


со 


AAG19119.1 
ААб19157.1 
ААСб19534.1 
ААС19561.1 
ААС19981,1 
ААб20213.1 


с» 


D о © с 


© o 


© 


0.1666667 
.1666667 
.0238095 
.0194175 
.0333333 
047619 
028169 


annn 


‚0222222 


3333 0.01 


‚0625 0.0178571 


‚0333333 0.047619 0.028169 0.0222222 


0.0625 0,0571429 0.0136986 

78571 0.0124224 0.0129032 
0.0133333 0.0526316 0.0212766 
0 0.0112994 0.0217391 0.0119048 


9 0.0263158 0.0125786 
0.0217391 0.0263158 0 0.0166667 
0.0119048 0.0125786 0.0166667 0 


选中 序列 的 infile 


3.3 用 R 包 (Bioconductor) 再 实现 课题 (方法 一 ) 


3.3.1 


重新 设计 数据 处 理 流 程 和 全 部 函数 


在 3.2 中 ， 我 们 用 基本 R 包 实 现 了 课题 ， 不 需要 安装 任何 扩展 R 包 就 可 以 直接 运行 ， 
本 节 和 下 一 节 内 容 介 绍 如 何 使 用 Bioconductor 的 几 个 扩展 R 包 来 重新 编写 3.2.1 中 的 R 程 
序 ， 通 过 对 比 ， 使 读者 了 解 Bioconductor 扩展 包 独 特 的 编程 思想 。 由 于 Bioconductor 扩展 
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包 数 量 巨 大 、 内 容 繁多 ， 因 此 有 多 个 包 可 以 实现 同样 的 功能 。 为 了 保证 学 习 的 连贯 性 ， 根 
据 内 容 逐 步 加 深 的 原则 ， 这 一 节 先 对 数据 处 理 流 程 的 前 面 几 个 步骤 做 些 变动 ， 仅 仅 调用 扩 
展 包 “Biostrings” 重 新 编写 函数 ， 蔡 换 步 又 A、B、C、D、El 中 的 原 有 函数 ， 并 保持 其 他 
步骤 不 变 : 

А. 函数 bio_seq_import(myfileloc) 

В. 函数 bio_pattern_match(pattern, sequences, hit_num) 

С. 函数 bio_getAApercentage(sequences) 

D+E1. 函数 bio_alignAndScore(sequences) 

修改 后 的 流程 图 见 图 3-12， 改 变 的 地 方 用 阴影 表示 : 


my_sequences 


Вр] 


7 


hit_sequences 

~ Сз 
б ү Фф 
对 象 


score_matrix 


СЕ2> |] 


infile 


图 3-12” 例 3-2 数 据 处 理 流程 图 


А. 定义 序列 导入 函数 bio_seq_import 


bio_seq_import<- function(input_file) { 
# 读 入 fasta 文件 ， 存 入 对 象 my_fasta。 
Iny_fasta <- read.AAStringSet(input_file); 


# 从 my_fasta 第 1 列 的 注释 行 中 提取 序列 的 ID(Accession Number). 
Acc<- gsub(".*gb\l(.*)\|.*", "\1", as.character(my_fasta[, 1]), perl = T); 


# 修改 my_fasta 对 象 的 names 属性 。 


names(my_fasta)<-Acc; 
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my_fasta; 


В. 定义 模式 匹配 函数 bio_pattern_match' 


bio_pattern_match<- function(pattern, sequences, hit пит) { 
# 从 sequences 对 象 中 获取 和 蛋白质 序列 的 内 容 。 


ѕедѕ = as.character(sequences); 


# 获取 正则 表达 式 pattern 表示 的 模 序 在 所 有 序列 中 出 现 的 位 置 (未 找到 匹配 将 返回 -1)， 
所 有 位 置 存 入 一 个 列表 对 象 pos，perl=T 表示 兼容 регі 的 正则 表达 式 格式 。 


роѕ<- ргерехрг(райегп, segs, perl = T); 


# lapply 函数 调用 自 定 义 函 数 function， 根 据 pos 中 的 每 一 个 元 素 ， 计 算 pattern 在 每 条 
序列 中 匹配 的 个 数 ， 再 由 unlist 函数 将 结果 转变 为 向 量 。 
hitsv<- unlist(lapply(pos, function(x) if (х[1] == -1) {0} else {length(x)})); 


# 找 出 匹配 次 数 大 于 hit_num 的 序列 ， 并 将 大 写 形式 替换 为 小 写 ，gsub 中 第 一 个 参数 
[A-Z] 匹 配 任 意 大 写 字母 ,“WNLMN1” 表 示 将 前 面 小 括号 中 匹配 的 任意 字母 替换 为 其 小 写 形 式 。 

tag <- gsub("([A-Z])", "\L\1", as.character(sequences[hitsv > hit пит]), реп = Т, 
ignore.case = Т); 


# 为 模 序 pattern 加 上 小 括号 ， 以 适合 perl 正则 表达 式 格式 ， 方便 下 面 使 用 。 
pattern2 = paste("(", pattern, ")", sep =""); 


# 将 tag 序列 中 和 模 序 pattern 匹配 的 部 分 替换 为 大 写 ， 原 理 同 上 ,“NUN1” 表示 替换 为 
大 写 。 


tag<- gsub(pattern2, "МО\№І", tag, perl = Т, ignore.case = Т); 


# 生成 新 的 AAStringSet 对 象 export 保存 选中 的 序列 信息 (大 小 写 混合 表示 和 氨基酸)。 
export <- AAStringSet(tag); 


# 输出 对 象 export 到 文件 Hit_sequences.fasta (fasta 文件 格式 )。 
write.XStringSet(export file="Hit_sequences1.fasta"); 


# 输出 提示 信息 。 
cat(" 含 有 模 序 \"", pattern, "VEERE", hit_ пот, "个 的 所 有 蛋白 质 序列 已 写 入 当前 工作 目录 
下 文件 'Hit_sequences.fasta”", "\n", вер =""); 
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# 输出 提示 信息 。 
cat(" 极 端 嗜 盐 古 菌 蛋 白 组 中 以 下 序列 含有 模 序 \'…"，pattern，"\" 的 数量 超过 2 个 : "，"\n"， 


Sep =="); 


# 输出 选中 的 序列 。 


print(export); 


# 生成 新 的 AAStringSet 对 象 export 保存 选中 的 序列 信息 〈 大 写 表 示 氮 基 酸 )。 
selected <- AAStringSet(as.character(sequences[hitsv > hit_ num])); 


# 返回 选中 序列 。 
selected; 
} 


С. 定义 氨基 酸 含量 统计 函数 bio_getAApercentage' 


bio_getAApercentage<- function(sequences) { 

# 生成 一 个 包含 20 种 标准 氨基 酸 单字 母 简 写 的 数据 框 AA。 

AALE An CS DV ER "EC ES E E MA TN PTT O! TR ES oe, 
VS Wo т"): 

# 得 到 每 条 序列 中 20 种 氨基 酸 出 现 的 次 数 。 

AApercentage <- letterFrequency(sequences, АА); 


# 次 数 /序列 长 度 ， 得 到 每 条 序列 中 20 种 氨基 酸 的 百 分 含 量 。 
AApercentage <- t(AApercentage/width(sequences)* 100); 


# 修改 数据 框 AApercentage 各 列 的 名 字 。 


colnames(AApercentage) <- патеѕ(ѕедиепсезѕ); 


# 下 面 代 码 与 函数 getAApercentage 中 相同 ， 参 看 例 3-1 中 的 注释 。 

AApercentage<-data.frame(AApercentage,Mean=apply(AApercentage[,1:dim(AApercentage) 
[2]], 1, mean, na.rm = Т)); 

write.csv(AApercentage, file ="AApercentage.csv", row.names = Е, quote = F) ; 

cat(" 氨 基 酸 百分比 含量 已 经 写 入 当前 工作 目录 下 的 文件 'AApercentage.csv", "\п"); 

AApercentage; 

} 
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D. 定义 两 两 比 对 和 函数 bio_alignAndScore' 


bio_alignAndScore<- function(sequences) { 

# 定义 一 个 空 的 得 分 和 矩阵， 初始 值 都 为 0。 

scorem=matrix(rep(0,length(sequences)*length(sequences)),nrow = length(sequences), ncol 
= length(sequences)); 

# 下 面 循环 每 次 都 是 对 比 两 条 序列 ， 结 果 存 入 得 分 矩阵 scorem。 

for (i in 1:length(sequences)) { 

for (j in 1:length(sequences)) { 

# 调用 pairwiseAlignment 函数 两 两 对 比 

scorem[i,j]=pairwiseAlignment(sequences[[ill, ， sequences[[j]]， type = "overlap", 
substitutionMatrix = "BLOSUM62", gapOpening = 9.5, gapExtension = 0.5,scoreOnly=T) 

} 

} 

cat(" 程 序 完 成 所 有 序列 的 两 两 比 对 \n"); 

} 


3.3.2 课题 实现 


首先 ， 安 装 Bioconductor 扩展 包 “Biostrings”: 
source("http://bioconductor.org/biocLite.R") ; 
biocLite("Biostrings") ; 

biocLite("ape") ; 


А. 利用 函数 bio_seq_import 导 入 极端 嗜 盐 古 菌 的 蛋白 质 组 
library("Biostrings") 


my_file <- "AE004437.faa" 
my_sequences <- bio_seq_import(input_file = my_file) 


В. 调用 函数 bio_pattern_match' 寻 找 模 序 


hit _sequences <- bio_pattern_match(pattern ="Н..Н{1,2}", sequences = my_sequences, 
һе пит =2) 


С. 调用 函数 ' bio_getAApercentage' 统 计 和 氨基 酸 百 分 含量 


АА. регсепѓаре<- bio_getAApercentage(Sequences = hit_sequences) 
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D. 调用 函数 'alignAndScore' 得 到 两 两 比 对 得 分 和 矩阵 
score_matrix<- bio_alignAndScore(sequences = hit_sequences) 


3.3.3 源 代 码 详解 与 小 结 


通过 重 写 A 到 DD 四 个 函数 ， 对 比 原 有 的 函数 ， 可 以 看 到 下 列 主要 的 变化 和 特点 : 

(1) Bioconductor 扩展 包 针 对 每 一 种 生物 信息 数据 格式 的 文件 都 有 专门 的 函数 负责 输 
入 、 输 出 和 格式 转换 。 例 如 “Biostrings” 包 中 函数 “read.AAStringSet”， 可 以 自动 识别 fasta 
格式 的 文件 ， 不 需要 用 户 自行 编程 解析 文件 格式 ， 大 大 减少 了 工作 量 ;“write.XStringSet” 
函数 可 以 将 “AAStringSet” 对 象 直接 写 入 fasta 格式 的 文件 作为 输出 。 

(2) 对 于 每 种 基本 的 序列 分 析 算 法 或 者 过 程 Bioconductor 都 有 基本 的 函数 来 完成 ， 读 
者 只 需要 了 解 输入 、 输 出 和 调用 参数 即 可 。 例如 “Biostrings” 包 中 函数 “pairwiseAlignment” 
可 以 自动 完成 序列 两 两 比 对 ， 并 且 输 出 比 对 的 得 分 。“1letterFrequency” 函 数 统计 序列 中 各 种 
类 型 字母 的 出 现 频率 。 

(3) 因此 ， 简 单 来 说 ，Bioconductor 编程 就 是 将 已 有 的 输入 输出 和 数据 处 理 模 块 按照 设 
计 好 的 流程 贯穿 起 来 。 


3.4 НЕА (Bioconductor) 再 实现 课题 (方法 二 ) 


3.4.1 重新 设计 数据 处 理 流程 和 全 部 函数 


在 3.2 中 , 我 们 提 到 过 两 个 问题 : 我 们 使 用 了 两 两 比 对 的 方法 得 到 多 个 序列 之 间 的 相互 
关系 ， 而 不 是 多 重 比 对 ; 构建 和 显示 进化 树 调用 了 外 部 程序 ， 而 没有 使 用 R 扩展 包 。 这 里 ， 
我 们 通过 多 重 比 对 方法 〈 步 又 E1) 得 到 多 个 序列 之 间 的 相互 关系 ， 并 用 R 扩展 包 构 建 和 实 
现 进化 树 。 

多 重 比 对 与 两 两 比 对 ， 对 构建 进化 树 的 影响 在 3.2.3 简单 提 到 过 , 这 里 不 做 进一步 讨论 。 
与 调用 外 部 程序 相 比 ， 全 部 用 R 编程 ， 可 以 使 中 间 结 果 和 数据 传递 更 简便 、 效 率 高 、 时 间 
短 。 因 此 ， 这 一 节 ， 我 们 调用 两 个 R 的 扩展 包 “seqinr” 和 “ape” 来 实现 进化 树 构 建 与 显 
示 。 这 一 节 仅 仅 替 换 步 骤 D、E1、E2、E3 和 E4 中 的 原 有 函数 ， 保 持 其 他 步骤 不 变 : 

D. ClustalW2 程序 ; 

Е1. 函数 read.alignment 和 函数 printMultipleAlignment; 

E2. 函数 cleaned_aln; 

ЕЗ. 函数 unrootedNJtree; 

E4. 函数 rootedNJtree。 

修改 后 的 流程 图 见 图 3-13， 改 变 的 地 方 用 阴影 表示 : 


文件 - 
AE004437.faa 


O 


对 象 
ту_ѕедиепсеѕ 


СВУ] 


文件 ©; 
hit_sequences,fasta 


6—1 


ААрегсепїаве 
.CSV 


图 3-13” 例 3-3 数 据 处 理 流程 图 


El. 定义 函数 read.alignment 和 "printMultipleAlignment' 


实现 如 下 功能 : 
由 “read.alignment” 读 入 比 对 结果 文件 (由 R 包 直接 提供 ); 
Ошта ХАЖ. 


R 语言 代码 如 下 : 


printMultipleAlignment <- function(alignment, chunksize=60) 

{ 

# 此 函数 需要 Biostrings 扩展 包 。 

require("Biostrings") ; 

# 从 对 象 alignment (Н read.alignment 读 入 ) 中 得 到 序列 总 数 。 

numseqs <- alignment$nb ; 

# 得 到 所 有 序列 比 对 在 一 起 时 的 序列 长 度 (= 原始 序列 +indel)。 

alignmentlen <- nchar(alignment$seq[[1]]) ; 

# 设 定 显示 时 ， 每 个 新 行 起 始 位 置 对 应 序列 中 的 实际 位 置 ， 如 果 设 定 每 行 最 多 不 能 超 
过 60bp 《chunksize=60)， 则 起 始 位 置 是 1，61，121 ...... 这 样 ， 一 个 chunk 包括 了 所 有 序 
列 的 一 段 不 超过 60bp 的 序列 。 

starts <- seq(1, alignmentlen, by=chunksize) ; 

# 得 到 chunk 总 数 。 

п <- length(starts) ; 

# 定义 两 个 空间 量 。 
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aln <- уесіог(); 

# 每 个 元 素 是 一 条 序列 。 

lettersprinted <- vector(); 

# 对 应 新 行 中 最 后 一 位 在 原始 行 中 的 位 置 这 个 循环 完全 可 以 用 向 量 运 算 解 决 。 
for (j іп 1:numseqs) 

{ 

# 每 次 提取 一 条 序列 。 

aln[j] <- alignment$seq[[j]] ; 

# 初始 化 向 量 。 

lettersprinted[j] <- 0; 

} 

# 每 次 循环 处 理 一 个 chunk。 

for (iin 1:n) { 

# 每 次 循环 处 理 一 条 序列 。 

for (j іп 1:numseqs) 

{ 

# 每 次 取 一 条 序列 。 

alnj <- aln[j] ; 

# 取 该 序列 第 i 个 chunk 长 度 的 片段 。 

chunkseqjaln <- substring(alnj, starts[i], starts[i]+chunksize-1) ; 
# 序列 中 的 字母 全 部 转换 为 大 写 。 

chunkseqjaln <- toupper(chunkseqjaln) ; 

# 统计 有 多 少 “-”。 

гар] <- countPattern("-",chunkseqjaln) ; 

# chunk 的 长 度 减 去 “-” 就 是 DNA 字母 数量 ， 逐 渐 累 加 ， 即 可 对 应 到 原始 序列 中 的 位 


lettersprinted[j] <- lettersprinted[j] + chunksize - рар]; 
# 打印 chunk 中 的 片段 ， 然 后 加 上 最 后 一 位 碱 基 在 原始 序列 中 的 位 置 。 
print(paste(chunkseqjaln,lettersprinted[j])) ; 
} 
# 每 个 chunk 打印 完毕 ， 需 要 空 一 行 ， 分 割 多 个 chunk。 
print(paste(' )) ; 
} 
} 


E2. 定义 函数 'cleaned_aln' 


实现 如 下 功能 : 去 除 多 重 比 对 结果 中 质量 非常 低 的 位 置 ， 保 证 剩 下 的 每 个 位 置 的 非 空 
位 核 背 酸 残 基 大 于 一 定 比 例 ， 并 且 每 个 位 置 上 相同 残 基 也 要 大 于 一 定 比例 。 
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R 语言 代码 如 下 : 


cleanAlignment <- function(alignment, minpcnongap, minpcid) 

{ 

# 保留 一 份 变量 alignment 的 copy， 用 于 存储 更 新 后 的 信息 ， 并 作为 返回 值 。 
newalignment <- alignment; 

# МХ alignment (H read.alignment 读 入 ) 中 得 到 序列 总 数 。 

numseqs <- alignment$nb; 

# 得 到 所 有 序列 比 对 在 一 起 时 的 序列 长 度 《〈= 原 始 序列 +indel)。 

alignmentlen <- nchar(alignment$seq[[1]]) ; 


# 把 newalignment 对 象 中 所 有 序列 置 空 。 


for (j іп 1:numseqs) { newalignment$seq[[j]] <- "" }; 


# 循环 1 开始 ， 每 次 循环 处 理 对 齐 序列 中 的 一 个 位 置 。 

for (i in 1:alignmentlen) 

{ 

# 定义 变量 nongap 记录 该 位 置 gap 总 数 ， 并 初始 化 。 

nongap <- 0; 

# 每 次 循环 处 理 一 条 序列 中 的 该 位 置 所 有 对 齐 的 残 基 。 

for (j in 1:numseqs) 

{ 

# 取 第 j 条 序列 的 所 有 残 基 。 

seqj <- alignment$seq[[j]]; 

# 只 截取 第 j 条 序列 第 i 个 位 置 的 残 基 。 

letterij <- substr(segj,i,i); 

# WREIDE “-”, nongap 总 数 就 加 1. 

if (Іейегіј != "-") { nongap <- nongap + 1}; 

} 

# 第 i 个 位 置 的 попрар 总 数 除 以 序列 数量 ， 得 到 nongap 的 百分比 。 

pcnongap <- (nongap*100)/numseqs; 

# 如 果 某 个 位 置 的 nongap 百分比 含量 大 于 等 于 阔 值 minpcnongap。 

# 条 件 判断 1 开始 。 

if (рспопрар >= тіпрспопрар) 

{ 

# 满足 第 一 个 条 件 ， 则 还 需要 看 是 否 满足 第 2 个 条 件 。 

# 定义 两 个 变量 ， 第 1 个 记录 两 两 残 基 对 总 数 ， 第 2 个 记录 相同 残 基 对 的 数量 ， 并 初 
始 化 。 
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numpairs <- 0; numid <- 0; 
# 下 面 两 重 循环 用 于 第 i 个 位 置 上 所 有 残 基 ， 两 两 比较 。 
for (j in 1:(питѕедѕ-1)) 
{ 
# 只 截取 第 j 条 序列 第 i 个 位 置 的 残 基 。 
seqj <- alignment$seq[[j]]; 
# 只 截取 第 j 条 序列 第 i 个 位 置 的 残 基 。 
letterij <- ѕобѕіг(ѕед]ј,1,1); 
# ЖЯ k 条 序列 第 i 个 位 置 的 残 基 ， 逐 个 与 第 j 条 i MER. 
for (К in (j+1):numseqs) 
{ 
seqk <- alignment$seq[[k]]; 
letterkj <- substr(segk,i,i); 
# 再 取 第 k 条 和 j 条 都 不 是 gap 的 。 
if (letterij != "-" && letterkj != "-") 
{ 
# 两 两 残 基 对 总 数 计数 增加 1 次 。 
numpairs <- numpairs + 1; 
_# 如 果 这 对 残 基 相 同 ， 相 同 残 基 对 的 计数 加 1。 
if (letterij == letterkj) { поті <- numid + 1}; 


} 
} 
# 相同 残 基 对 除 以 两 两 残 基 对 总 数 ， 得 到 比例 。 
pcid <- (numid*100)/(numpairs); 
# 条 件 判断 2 08, а ЕНУ РИЯ. 
if (pcid >= minpcid) 
{ 
# 就 把 第 i 位 置 上 ， 所 有 序列 相应 的 残 基 依 次 写 入 ， 否 则 就 丢弃 该 位 点 。 
for (j іп 1:потѕедѕ) 
{ 
seqj <- alignment$seq[[j]]; 
letterij <- substr(seqj,i,i); 
newalignmentj <- newalignment$seq[[j]]; 
newalignmentj <- paste(newalignmentj,letterij,sep=""); 
newalignment$seq[[j]] <- newalignmentj; 
} 
} 
# 条 件 判 断 2 结束 。 
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} 
# 条 件 判 断 1 结束 。 
} 
# 循环 1 结束 。 


return(newalignment); 


ЕЗ. 定义 函数 "unrootedNJtree' 


实现 如 下 功能 : 

8 用 邻 位 相连 法 (Neighbor-joining) 构建 进化 树 〈 无 根 类 型 ); 
人 @ 显 示 构 建 的 进化 树 。 

R 语言 代码 如 下 : 


unrootedNJtree <- function(alignment,type) 

{ 

# 这 个 函数 需要 аре 和 seqinR 扩展 包 。 
require("ape"); 

require("seqinr"); 

# 定义 一 个 函数 ， 注 意 这 个 新 知识 点 ， 是 函数 内 定义 函数 。 
makemytree <- function(alignmentmat) 

{ 

# as 开头 的 函数 都 是 格式 转换 。 

alignment <- ape::as.alignment(alignmentmat); 
# 如 果 序列 类 型 是 蛋白 质 。 

if (type == "protein") 

{ 

# 从 比 对 结果 对 象 中 得 到 一 个 两 两 距离 矩阵 。 
mydist <- dist.alignment(alignment); 

} 

# 如 果 序 列 类 型 是 DNA。 

else if (type == "ОМА") 

{ 

# as 开头 的 函数 都 用 于 格式 转换 。 
alignmentbin <- as.DNAbin(alignment); 


# 从 比 对 结果 对 象 中 得 到 一 个 两 两 距离 矩阵 。 
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mydist <- dist.dna(alignmentbin); 

} 

# 用 邻 位 相连 法 (Neighbor-joining) 构建 进化 树 对 象 。 
mytree <- nj(mydist); 

# 将 构建 的 进化 树 对 象 返回 。 

return(mytree); 

} 

# as 开头 的 函数 都 用 于 格式 转换 。 

тута <- as.matrix.alignment(alignment); 

# 调用 上 面 定义 的 函数 构建 进化 树 。 

mytree <- makemytree(mymat); 

# 对 构建 的 进化 树 做 自 举 (bootstrap) 分 析 。 
myboot <- boot.phylo(mytree, mymat, makemytree); 
# 画 进 化 树 ， 类 型 是 无 根 树 。 
plot.phylo(mytree,type="u"); 

# 在 画 好 的 进化 树 上 显示 自 举 值 。 
nodelabels(myboot,cex=0.7); 

# 把 自 举 值 设 定 为 节点 的 标签 。 
mytree$node.label <- myboot; 

# 返回 构建 的 进化 树 〈 对 象 )。 
return(mytree); 

} 


E4. 定义 函数 rootedNJtree' 


实现 如 下 功能 : 

Q@ 用 邻 位 相连 法 (Neighbor-joining) 构建 进化 树 (有 根 类 型 ); 
句 显示 构建 的 进化 树 。 

R 语言 代码 如 下 : 


rootedNJtree <- function (alignment, theoutgroup, type) 

{ 

# 本 函数 大 部 分 代码 与 unrootedNJtree 函数 相同 ， 因 此 只 注释 不 同 的 语句 。 
гедшіге("аре"); 

гедшіге("ѕедіпг"); 


# 定义 一 个 函数 ， 多 了 一 个 参数 ， 用 于 指定 哪 条 序列 来 充当 根 。 
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makemytree <- function (alignmentmat, outgroup= theoutgroup ) 


{ 
alignment <- ape::as.alignment(alignmentmat); 


if (type == "protein") 

{ 

mydist <- dist.alignment(alignment); 
} 


else if (type == "DNA ") 
{ 
alignmentbin <- as.DNAbin(alignment); 
mydist <- dist.dna(alignmentbin); 
} 
mytree <- nj(mydist); 
# 这 里 需要 指明 哪 条 序列 作为 根 。 
myrootedtree <- root(mytree, outgroup, г=ТКОБ); 
return(myrootedtree); 
} 
mymat <-as.matrix.alignment(alignment); 
# 这 里 函数 调用 ， 也 多 了 一 个 参数 。 
myrootedtree <- такетуігее(тутаї, outgroup=theoutgroup); 
myboot <- boot.phylo(myrootedtree, тушта, makemytree); 
# 画 进 化 树 ， 类 型 是 有 根 树 。 
plot.phylo(myrootedtree,type="p"); 
nodelabels(myboot,cex=0.7); 
myrootedtree$node.label <- myboot; 
return(myrootedtree); 


3.4.2 ”课题 实现 


首先 ， 从 例 3-1 流程 中 得 到 的 序列 文件 “Hit_sequences.fasta” 开 始 ， 登 录 序列 多 重 比 
对 程序 ClustalW2 所 在 的 网 站 (http:/www.ebi.ac.uk/Tools/msa/clustalw2/) 提交 该 数据 ， 得 到 
结果 后 以 格式 文件 下 载 得 到 结果 文件 “hit_ sequences.clustalw ”， 保 存 到 工作 目录 
“C:\workingdirectory ”。 然 后 ， 安 装 扩展 包 “seqinr” 和 扩展 包 “ape”: 


install.packages(seqinr ); 
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install.packages(ape ); 

ЕІ. 读 入 多 重 对 比 结果 并 显示 ， 供 人 工 查看 

library(Cseqinr ) 

hit aln <- read.alignment(file = "Hit_ sequences.clustalw", format = "clustal"); 
printMultipleAlignment(hit_aln, 60). 

E2. 去 除 多 重 比 对 中 的 低 质 量 区 

cleaned_aln <- cleanAlignment(hit_aln, 25, 25) 

ЕЗ. 根据 多 重 比 对 结果 绘制 无 根 树 


install.packages(‘ape') 
library('ape') 
unrooted_tree <- unrootedNJtree(cleaned_aln,"protein") 


E4. 根据 多 重 比 对 结果 绘制 有 根 树 


rooted_tree <- rootedNJtree(cleaned_aln, "AAG19157.1", "protein") 
343 源 代 码 详解 与 小 结 


在 例 3-3 中 ,我 们 利用 扩展 包 “seqinr” 和 扩展 包 “ape” 重 新 实现 了 构建 进化 树 的 
功能 。 多 重 比 对 程序 ClustalW2 得 到 的 比 对 结果 文件 “Hit_sequences.clustalw ”的 “clustalw” 
格式 非常 常见 ， 扩 展 包 “seqinr” 中 的 read.alignment 函数 可 以 自动 识别 这 种 格式 ， 并 把 
结果 存 入 一 个 对 象 。 这 是 非常 重要 的 R 编程 习惯 ,专门 的 函数 处 理 输入 类 型 , 存 入 对 象 ， 
以 备 下 一 步 继续 处 理 。 

我 们 自己 动手 写 了 2 个 函数 来 处 理 多 重 比 对 数据 ,“printMultipleAlignment” 可 以 根 
据 用 户 需 要 来 按照 参数 指定 的 长 度 〈 如 60) 来 控制 每 行 输出 的 序列 ;“cleanAlignment” 
可 以 去 除 一 些 比 对 的 低 质量 位 点 ， 不 仅 可 以 减少 计算 量 ， 还 可 以 提高 进化 树 计算 的 准确 
度 。 读者 可 以 输入 对 和 象 “cleaned_aln” 的 名 称 加 回 车 , 查看 去 除 后 的 比 对 结果 (图 3-14)。 
函数 “cleanAlignment” 中 算法 的 思路 基于 最 基本 的 矩阵 运算 ， 即 把 每 条 序列 看 作 一 行 ， 
每 个 位 点 看 作 一 列 ; 外 循环 是 列 ， 每 次 处 理 一 列 ， 内 循环 中 处 理 一 列 中 的 所 有 行 。 这 个 
算法 很 简单 ， 但 是 这 样 逐个 处 理 和 矩阵 中 每 个 元 素 的 编程 方式 并 不 是 R 鼓励 的 ，R 的 习惯 
还 是 向 量 运算 ， 一 次 至 少 处 理 一 行 或 一 列 ， 不 仅 使 程序 简洁 ， 还 可 以 从 底层 优化 ， 提 高 
速度 。 这 里 之 所 以 这 么 编写 程序 ， 主要 为 了 进一步 介绍 一 下 R 的 语法 ， 并 且说 明 R 对 于 
更 低级 的 编程 也 是 支持 的 。 

函数 “unrootedNJtree” 和 “rootedNJtree” 都 是 基于 “ape” 扩 展 包 来 构建 进化 树 的 ， 
两 者 都 可 以 自动 识别 对 比 结果 (对 象 )， 而 不 必 像 例 3-1 那样 必须 先 计 算 距 离 矩 阵 ， 编 
程 更 加 方便 和 灵活 。 两 个 函数 构建 进化 树 的 算法 都 是 邻 位 相连 法 (Neighbor-joining)， 前 
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者 是 无 根 树 ， 后 者 是 有 根 树 。 构 建 有 根 树 时 ， 我 们 指定 的 序列 “AAG19157.1”， 只 是 用 
于 程序 演示 ， 没 有 实际 的 生物 学 意义 。 

„е 

{11 8 


Snam 
[1] "AAG19534.1" "AAG20213,1" "AAG19981.1" "AAG20267.1" "ARG19561.1" "AAG20282.1 
[7] "AAG19157.1" "AAG19119.1" 


5зец 
5зед[ [11] 
11] "drraaąaggagiselladidegdpaderpvrgtykrgfvdekpdlgfdaegptvtddswfsgseygtadpg-" 


sseql [21] 
[чыр а ызы канышы шашыранкы ны А АНЫ Ын СА ЫНЫ g--vpdd----vg---tadsg-" 


$seq[[3]] 
[1] "--—-—-—---—- hglrdihagd-vddsparaayrrdlvdevpalefdang--yppd----hdaaavwdgr-" 


EE da--gcdd----vg--atpdkg-" 
Ка. E шылыш ш А шдшыл ашынын дыны tadaptvprt----ge--gwpgsng" 


$seq[[6]] 
{1] "drraaggagiseqiadidagvpapesradaafregliladkeapgwtavgtsvpydywfsggeygfaaggg" 


$seq[[7]] 
ELEY Sm de--vpyas---gg--gtp-gg-" 
$seql {8]] 
上 生计 用 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 idv--ildh----ig---va-gs-" 


图 3-14 去除 后 的 比 对 结果 


第 四 意 ”Bioconductor 简介 


Bioconductor 是 建立 在 R 语言 环境 上 的 ， 用 于 生物 信息 数据 的 注释 、 处 理 、 分 析 及 可 视 
化 工具 包 的 总 集 ， 由 一 系列 R 扩展 包 组 成 。 Bioconductor 当前 最 主要 应 用 在 基因 芯片 和 下 一 
代 测 序数 据 分 析 两 个 领域 ， 而 且 在 其 他 领域 的 应 用 也 逐渐 展开 。 截 至 2013 年 10 H, 
Bioconductor 2.13 已 经 发 布 了 750 个 软件 包 、698 个 注释 包 和 180 个 数据 包 ， 拥 有 非常 活跃 
的 用 户 群 。 本 章 4.1 简单 介绍 Bioconductor 的 起 源 和 特点 ，4.2 分 类 介绍 Bioconductor 一 些 
主要 包 的 功能 ;4.3 通过 几 个 具体 应 用 来 介绍 如 何 使 用 Bioconductor 来 解决 实际 问题 。 希 望 
通过 本 章 的 学 习 ， 读 者 能 够 了 解 并 熟悉 R/Bioconductor 的 编程 思想 ， 便 于 后 续 章节 的 学 习 。 


41 什么 是 Bioconductor 


4.1.1 Bioconductor 的 起 源 


А 1995 年 斯 坦 福 大 学 率先 使 用 基因 芯片 (Microarray) 分 析 基 因 表 达 以 来 ， 生 命 科 学 
领域 的 研究 人 员 迎 来 了 一 个 巨大 的 机 遇 ， 同 时 也 面临 一 个 巨大 的 挑战 。 从 机 遇 和 角度 来 讲 ， 
这 些 非 常 庞 大 的 基因 表达 数据 蕴含 着 丰富 的 生物 学 知识 ， 可 以 帮助 研究 人 员 通 过 可 重复 的 
实验 来 更 好 地 理解 其 中 的 生物 学 机 制 。 然 而 ， 基 因 芯 片 带 来 的 海量 数据 处 理 任 务 是 史 无 前 
例 的 ， 要 求 研究 人 员 同 时 具备 计算 机 、 统 计 学 和 生物 学 三 个 方面 的 知识 ， 这 无 疑 是 一 种 新 
的 挑战 。 另 一 方面 ， 生 命 科 学 研究 的 一 大 特点 ， 即 实验 的 可 重复 性 和 可 对 比 性 要 求 数据 和 
方法 公开 和 标准 化 ， 而 当前 研究 人 员 各 自 编写 功能 类 似 的 软件 程序 或 者 流程 来 分 析 同 类 的 
芯片 数据 ， 造 成 了 大 量 的 重复 劳动 ， 而 且 也 不 利于 标准 化 。 因 此 数据 处 理 的 标准 化 也 构成 
了 这 个 挑战 的 一 部 分 。 

针对 这 个 挑战 ， 美 国 西雅图 Fred Hutchinson 癌症 研究 中 心 (Fred Hutchinson Cancer 
Research Center, FHCRC) 的 Rober С. Gentleman (R 语言 的 两 位 创始 人 之 一 ) 等 人 于 2001 
年 发 起 了 Bioconductor 软件 开发 项 目 趾 。 他 们 的 最 初 目 标 是 提供 一 个 快速 发 展 、 可 以 进行 资 
源 整 合 、 持 续 升 级 并 支持 并 行 运 算 的 软件 平台 来 降低 研究 人 员 分 析 基 因 芯 片 数据 的 门槛 ， 
增加 基因 组 信息 分 析 平 台 软 件 的 透明 度 和 数据 处 理 的 重 现 度 ， 并 提高 数据 分 析 等 相关 软件 
的 开发 效率 〈 避 免 重 复 劳 动 )。 当 然 ， 现 在 Bioconductor 已 不 局 限于 分 析 基 因 芯 片 数据 ， 而 
是 被 广泛 应 用 于 分 析 流 式 细胞 仪 、 色 谱 以 及 下 一 代 测 序 技术 等 产生 的 高 通 量 数据 。 自 2002 
年 5 月 第 一 版 发 布 以 来 ,， Bioconductor 与 R 语言 同步 发 展 ， 每 年 保持 两 次 更 新 。 而 且 作为 一 
个 开放 和 发 展 的 系统 ， Bioconductor 也 致力 于 研究 人 员 的 培训 ， 每 年 定期 举行 会 议 ， 并 提 
供 课 程 以 培训 研究 人 员 。 同 R 语言 一 样 ，Bioconductor 也 设立 了 核心 开发 团队 (Core team), 
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该 团队 主要 成 员 来 自 于 FHCRC 中 心 。 
4.1.2 ”Bioconductor 的 主要 特点 


同属 于 R 的 扩展 包 ，Bioconductor 是 免费 和 开源 的 ， 它 包括 的 所 有 扩展 包 都 是 基于 
Artistic 2.0、GPL2 或 者 BSD 授权 的 ， 用 户 可 以 方便 地 查看 或 者 修改 现 有 算法 或 数据 模块 ， 
根据 新 的 需求 不 断 更 新 已 有 扩展 包 或 开发 新 包 。 除 此 之 外 ，Bioconductor 还 具有 其 他 很 多 优 
点 ， 主 要 表现 在 以 下 儿 个 方面 1。 


(1) 分 布 式 开 发 模式 


面 对 类 型 多 样 、 数 目 庞 大 的 生物 信息 学 数据 ， 仅 仅 靠 一 个 实验 室 或 者 研究 所 是 不 可 能 
提供 所 有 的 解决 方案 的 。 分 布 式 开发 模式 便于 世界 各 地 的 研究 人 员 和 集思广益 ， 发 挥 各 自 优 
势 ， 共 同 开 发 和 拓展 Bioconductor 项 目 。 分 布 式 开发 允许 各 地 的 开发 者 同时 开发 同一 个 工 
程 中 相同 的 组 件 ， 这 首先 要 求 源 代码 可 以 随时 访问 和 修改 ， 还 需要 具备 良好 的 版 本 控制 系 
统 。Bioconductor 使 用 Concurrent Versions System 〈 一 种 版 本 控制 软件 ) 来 进行 版 本 控制 。 
通过 这 一 系统 ， 所 有 的 开发 者 都 可 以 接触 到 在 一 个 统一 的 文档 中 心 存放 的 整个 工程 的 源 代 
码 。 分 布 式 开发 的 另 一 个 要 求 是 不 能 因为 个 别 开 发 者 的 行为 引发 系统 其 他 部 分 的 崩 演 。 由 
于 R 中 使 用 了 包 的 组 织 方式 ， 可 以 将 不 同 开 发 者 开发 的 组 件 按 照 统 一 规范 整理 成 扩展 包 ， 
每 个 包 都 应 该 只 有 单一 和 一 致 的 主题 ， 这 样 通过 功能 模块 化 的 包 控 制 了 错误 发 生 的 范围 。 

Bioconductor 依赖 R 包 测 试 系统 的 测试 机 制 来 对 每 一 个 包 进行 测试 以 确定 其 稳定 性 与 
健壮 性 。 每 一 个 开发 者 都 要 对 其 开发 的 包 中 的 所 有 函数 进行 记录 ， 并 且 提 供 示例 代码 、 脚 
本 或 命令 用 于 代码 测试 。 开 发 者 在 每 次 提交 新 包 或 者 升级 旧 包 之 前 都 必须 保证 所 提交 的 代 
码 可 以 正常 运行 。 有 时 升级 包 会 影响 依赖 它 或 者 导入 它 的 相关 包 的 运行 ， 所 以 在 提交 升级 
之 前 ， 必 须 保 证 升级 的 部 分 不 会 影响 其 他 包 的 正常 运行 。 开 发 团队 的 成 员 们 可 以 通过 论坛 、 
电子 邮件 、 电 话 和 会 议 等 交流 思想 、 更 新 知识 或 协调 合作 。 


(2) 外 部 资源 再 利用 


这 里 的 外 部 资源 主要 是 指 用 其 他 编程 语言 编写 的 程序 。 外 部 资源 再 利用 需要 考虑 三 个 
方面 : 第 一 ，Bioconductor 开发 的 一 个 基本 原则 就 是 尽量 直接 使 用 或 者 稍 加 改编 整合 已 有 的 
算法 或 程序 ， 特 别 是 一 些 标准 工具 和 成 熟 算 法 ， 而 不 是 重 写 。 这 样 大 大 减少 了 使 用 未 经 测 
试 的 新 代码 的 风险 ， 而 且 提 高 了 效率 。 第 二 ， 由 于 生物 信息 学 是 一 个 复杂 的 领域 ， 往 往 需 
要 使 用 多 种 程序 和 工具 来 完成 一 个 任务 ， 所 以 Bioconductor 必须 提供 整合 其 他 代码 或 程序 
的 多 种 手段 。 以 Bioconductor 三 个 主要 的 与 图 和 网 络 相 关 的 包 (graph、RBGL 和 Rgraphviz) 
为 例 : graph 包 主 要 用 于 构建 图 和 网 络 ， 还 包括 一 些 简单 的 属性 操作 函数 ，RBGL 包 用 于 对 
图 和 网 络 分 析 算 法 的 实现 ， 包 括 求 最 短路 径 和 求 子 网 络 等 ，Rgraphviz 用 于 可 视 化 和 网 络 分 
析 。 三 个 包 中 的 后 两 者 就 是 从 С 语言 中 的 BOOST ЖЖ Graphviz 库 直 接 整 合 而 来 ， 
Bioconductor 不 需要 重 写 代 码 ， 只 是 提供 了 可 以 更 方便 地 使 用 这 些 功 能 的 接口 。 当 前 ， 还 有 
多 个 生物 信息 语言 或 者 软件 的 开发 项 目 (例如 Bioperl 和 Віојауа) 与 Bioconductor 项 目 并 行 
发 展 , 这 些 项 目 将 要 实现 Bioconductor 项 目 同样 (例如 Bioperl 和 Biojava) 或 者 相关 的 功能 ， 
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Bioconductor 项 目 没 有 必要 也 没有 可 能 同时 完成 其 他 项 目 可 以 完成 的 工作 , 因此 最 好 的 方法 
就 是 提供 一 个 标准 化 的 接口 ， 可 以 方便 地 访问 这 些 项 目的 各 种 资源 〈 程 序 或 者 数据 )。 举 例 
来 说 ， 可 扩展 标记 语言 (eXtensible Markup Language, XML) 就 是 一 种 广泛 使 用 的 共享 数 
据 资源 的 标记 语言 ， 它 提供 统一 的 方法 来 描述 和 交换 独立 于 应 用 程序 或 供应 商 的 结构 化 数 
据 。Bioconductor 可 以 不 断 获 取 XML 的 新 成 果 ， 而 大 大 降低 成 本 ， 增 强 自 身 功 能 。 


(3) 动态 的 生物 学 注释 


这 里 的 注释 特 指 元 数据 (Metadata)， 在 Bioconductor 的 一 些 文档 中 ， 元 数据 与 数据 的 
注释 这 两 个 概念 经 常 混用 。 元 数据 作为 描述 数据 的 数据 ， 主 要 描述 数据 属性 ， 用 来 支持 如 
指示 存储 位 置 、 历 史 数据 、 资 源 查找 和 文件 纪录 等 功能 。 生 物 信息 领域 的 元 数据 有 两 个 重 
要 特点 ， 即 变化 性 和 复杂 性 。 因 此 Bioconductor 项 目 开 发 了 一 些 软件 协助 研究 人 员 使 用 和 
分 析 元 数据 。 为 了 保证 元 数据 及 时 更 新 ， 以 便 用 户 可 以 得 到 最 新 的 元 数据 ，Bioconductor 将 
元 数据 写 入 R 包 。 这 些 R 包 都 是 采用 一 种 半自动 更 新 的 方法 创建 ,并 通过 一 些 基于 reposTools 
包 开 发 的 工具 发 布 或 更 新 。 元 数据 有 版 本 管理 ， 用 户 可 以 决定 何 时 更 新 需要 的 数据 ， 还 可 
以 方便 地 获取 旧版 本 的 数据 。 

自动 构建 数据 包 有 如 下 好 处 : 首先 ， 因 为 注释 包 有 统一 的 规范 ， 用 户 熟悉 了 一 个 包 之 
后 对 同类 型 的 包 也 会 触 类 旁 通 ; 第 二 ， 数 据 包 的 创建 便捷 快速 ， 例 如 有 关 基 因 芯 片 的 所 有 
数据 包 ; 都 应 该 包括 同样 的 信息 《例如 染色 体位 置 和 基因 本 体 论 类 别 等 )， 所 不 同 的 是 每 种 
芯片 都 有 不 同 的 探 针 集合 。 

经 常 遇 到 的 一 个 问题 是 ， 用 户 是 否 应 该 仅仅 依赖 在 线 资 源 获取 元 数据 。 从 潜力 上 讲 ， 
在 线 方式 保证 了 用 户 可 以 更 及 时 获取 最 新 的 信息 ， 本 地 包 的 方式 往往 做 不 到 。 但 是 相对 于 
在 线 资源 ， 使 用 本 地 数据 包 也 有 它 的 优势 ， 比 如 用 户 不 能 一 直 在 线 ， 用 户 可 能 对 在 线 的 信 
息 资源 并 不 是 十 分 了 解 等 。 另 外 ， 在 线 资源 可 以 被 拥有 者 随意 地 更 新 和 修改 ， 有 时 候 无 法 
保证 追踪 到 旧版 本 的 数据 以 重复 已 经 发 表 的 结果 。 


(4) 实验 的 可 重复 性 


Bioconductor 非常 强调 研究 的 可 重复 性 ， 这 是 生物 信息 学 ， 乃 至 科学 发 现 的 基础 。 然 而 
在 计算 科学 领域 ， 这 方面 不 是 很 乐观 。 在 以 往 的 计算 科学 相关 的 文章 中 ， 人 们 往往 只 是 对 
自己 的 算法 进行 描述 ， 因 为 纸 制 文章 这 种 发 表 媒介 局 限 了 人 们 发 布 实验 数据 、 运 行 参数 以 
及 程序 本 身 。 其 后 果 就 是 他 人 在 重复 前 人 工作 时 ， 需 要 花费 很 大 的 精力 去 琢磨 一 些 细节 问 
题 ， 特 别 在 无 法 与 作者 进行 有 效 沟通 的 情况 下 ， 需 要 投入 更 多 的 时 间 。 在 生物 信息 学 领域 ， 
在 发 表 文 章 的 同时 发 表 数 据 已 经 成 为 一 种 趋势 ， 这 为 他 人 重复 实验 提供 了 可 能 。 而 重复 实 
验 还 需要 软件 以 及 每 一 步 的 执行 命令 和 参数 等 详细 信息 。 因 此 当前 主流 的 高 品质 期 刊 都 要 
求 文章 发 表 者 提供 相应 的 哪怕 是 非常 基础 的 工作 细节 。 将 全 部 详细 信息 一 起 提交 的 文章 ， 
才能 成 为 高 水 平 的 文章 。 

Biocondoctor 扩展 包 及 文档 的 统一 标准 为 同时 发 布 数据 和 代码 等 信息 提供 最 优秀 的 平 
台 ， 完 全 可 以 满足 生物 信息 学 研究 的 可 重复 性 要 求 。 哪 怕 是 如 何 生成 一 个 图 形 或 一 个 表格 ， 
其 详细 过 程 都 可 以 在 Sweave 文档 中 找到 。 任何 一 个 R 用 户 都 可 以 很 轻松 地 修改 代码 或 参数 
来 检验 文章 中 的 计算 结果 的 健壮 性 ， 或 者 尝试 不 同 算法 和 参数 的 计算 结果 。 从 可 重复 性 角 
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È, R 和 Bioconductor 将 给 生物 信息 学 研究 带 来 一 场 革 命 。 
(5) 教育 培训 资源 丰富 


R/Bioconductor 作为 一 种 新 的 程序 设计 语言 ， 需 要 生物 学 、 计 算 机 和 统计 学 等 多 方面 的 
背景 知识 ， 因 此 教育 培训 用 户 成 为 了 一 个 重要 的 环节 。 每 年 都 会 有 大 量 的 培训 资料 公布 在 
Bioconductor 的 官网 或 其 他 网 站 上 ， 主 要 提供 两 个 方面 的 资源 : 课程 资料 和 说 明文 档 。 一 些 
Bioconductor 的 开发 者 会 亲自 主讲 一 些 课 程 ， 并 且 依 据 反 馈 不 断 改 进 课 程 资料 。 课 程 资料 主 
要 是 为 了 介绍 如 何 使 用 扩展 包 ， 是 公开 免费 的 ， 不 过 对 发 表 有 限制 。Bioconductor 除了 发 表 
传统 的 说 明文 档 (如 使 用 手册 ), 更 依赖 于 网 上 可 动态 更 新 的 在 线 文档 。 特别 是 Bioconductor 
引入 一 种 叫做 Vignette 的 大 规模 说 明文 档 : 传统 的 文档 只 是 说 明 一 个 或 者 几 个 函数 的 功能 或 
MH, Vignette 则 详细 地 说 明 完 成 某 项 复杂 任务 〈 使 用 多 个 函数 和 包 ) 所 需要 的 每 一 个 步 又。 
文档 开发 需要 多 方面 人 员 的 共同 努力 ， 有 文档 写作 经 验 的 开发 者 会 在 写作 策略 、 概 念 以 及 
方法 学 方面 带 来 创新 。 但 更 多 的 贡献 需要 来 自 R 使 用 者 ， 即 使 是 不 懂 编 程 的 人 也 可 以 作出 
贡献 。 很 多 研究 人 员 会 从 Bioconductor 用 户 转 变 为 开发 者 ， 所 以 在 文档 写作 的 过 程 中 ， 必 
须 考虑 这 一 类 人 的 需要 。 如 果 文 档 写 得 非常 有 吸引 力 ， 极 有 可 能 把 这 些 人 吸引 到 该 项 目的 
开发 队伍 中 ， 大 大 提高 合作 开发 的 成 功率 。 


(6) 响应 用 户 需 求 


一 个 软件 的 成 功 很 大 程度 上 取决 于 它 与 用 户 的 交流 。 当 前 最 有 效 的 响应 用 户 的 方式 可 
能 就 是 邮件 列表 (Maillist ) 。Bioconductor 在 建立 初始 就 启动 了 相应 的 邮件 列表 
(bioconductor@stat.math.ethz.ch)， 并 可 查询 以 往 的 邮件 。 以 往 的 邮件 中 的 问题 答案 可 以 帮 
助 遇 到 相同 问题 的 用 户 快速 地 解决 问题 ;以往 的 邮件 中 的 错误 报告 为 开发 者 避免 或 者 修正 
错误 提供 了 参考 。 另 一 方面 , 响应 用 户 需 求 还 需要 图 形 化 用 户 界面 (Graphical User Interface, 
GUI). GUI 比 命令 行 形式 可 以 更 好 地 实现 人 机 交互 ， 它 可 以 减少 人 们 对 命令 行 的 敬 旦 感 ， 同 
时 可 以 有 效 帮助 人 们 自动 完成 复杂 的 操作 ， 比 如 众多 参数 的 设置 、 复 杂 函 数 名 的 拼写 等 等 。 

用 户 在 下 载 及 安装 方面 也 会 遇 到 不 同 程度 的 困难 : 有 些 时 候 可 能 是 用 户 本 地 配置 的 问 
题 , 有 时 候 可 能 是 由 软件 的 Bug 引起 的 。Bioconductor 项 目 核心 开发 团队 会 尽力 帮助 每 个 用 
户 正确 安装 К 以 及 Bioconductor。 另 外 , 不 同 扩展 包 之 间 的 依赖 关系 的 管理 也 尽 可 能 由 系统 
自动 完成 ， 用 户 下 载 安 装 某 个 扩展 包 时 ， 系 统 会 自动 下 载 并 安装 它 所 依赖 的 其 他 包 。 


4.2 Bioconductor 的 分 类 介绍 


包 的 管理 方式 大 大 方便 了 分 布 式 开发 和 版 本 管理 ， 但 是 也 带 了 另外 一 个 问题 ， 即 当 用 
户 面 对 成 百 上 千 个 扩展 包 的 时 候 ， 应 该 如 何 从 零 入 手 学 习 呢 ? 本 节 分 类 介绍 各 种 包 的 功能 ， 
给 初学 者 一 个 总 体 概念 ， 为 读者 的 自学 提供 一 个 指南 。 
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4.2.1 三 大 板块 分 类 介绍 


BiocViews 是 由 Bioconductor 的 BiocViews 包 自 动 生 成 的 用 于 展示 Bioconductor 各 个 发 
布 版 本 所 有 包 的 HTML 信息 页 。BiocViews 将 Bioconductor 划分 为 三 大 板块 (图 4-1), 包 
括 实验 数据 包 (ExperimentData)、 软 件 包 〈(Software〉 和 注释 数据 包 (AnnotationData)。 

划分 的 目的 是 方便 软件 开发 及 教学 交流 。 对 于 Bioconductor 用 户 而 言 ， 这 种 划分 方法 
非常 适合 快速 掌握 数据 处 理 流程 。 首 先 需要 知道 设计 算法 是 为 了 处 理 什么 样 的 生物 信息 数 
据 ， 这 些 数据 的 格式 和 内 容 是 什么 ， 因 此 必须 有 一 些 公 开 的 数据 作为 样 例 ， 这 就 是 设计 实 
验 数据 包 的 出 发 点 ， 比 如 白血病 (Leukemia) 的 ALL 数据 包 是 广泛 用 Affymetrix 进行 基因 
芯片 分 析 的 教学 数据 包 ; 算法 是 Bioconductor 的 核心 ， 这 些 算法 集成 到 软件 包 中 ， 由 它们 
负责 读 取 实 验 数 据 来 产生 统计 结果 或 图 形 输出 ; 在 数据 处 理 过 程 中 ， 需 要 调 取 的 参考 信息 
全 部 放 到 注释 数据 包 中 ， 注 释 数 据 包 实际 上 就 是 本 地 化 的 生物 信息 数据 库 。 三 大 板块 划分 
的 更 为 重要 的 意义 ， 在 于 它们 可 以 协同 合作 记录 一 个 实验 的 全 部 数据 和 分 析 过 程 ， 用 户 可 
以 将 其 与 论文 同时 发 表 ， 提 高 科研 成 果 的 可 重复 性 〈 见 4.1.2)。 

三 大 板块 的 划分 有 利于 开发 者 快速 开发 与 验证 软件 包 。 开 发 者 可 以 从 实验 数据 包 中 选 
择 合 适 的 数据 来 进行 算法 分 析 或 比较 ， 比 如 hapMap 数据 包 就 是 广泛 用 于 SNP 算法 分 析 与 
比较 的 数据 包 。 这 样 做 ， 一 方面 可 以 有 效 减 小 软件 包 的 大 小 ， 另 一 方面 使 用 和 其 他 开发 者 
相同 的 数据 ， 可 以 方便 纠 错 (Debug〉 以 及 横向 比较 不 同 软 件 包 算 法 的 差别 。 开 发 者 通过 
BiocViews 的 分 类 系统 对 自己 的 软件 包 进行 定位 , 还 可 以 从 同类 软件 包 中 学 习 开发 标准 及 规范 。 


Bioconductor 


OPEN SOURCE SOFTWARE FOR BIOINFORMATICS 


Home » BiocViews 


All Packages 


Bloconductor version 2.11 (Development) Packages 


Software (609) Package Maintainer Title 
Annotation (83) аё Tobias Verbeke Automated Affymetrix Array Analysis Umbrella Package 
AssayDomains (237) аёВаѕе Tobias Verbeke Automated Affymetrix Array Analysis Base Package 


> AssayTechnologies (358) 
» Bioinformatics (395) 


Tobias Verbeke Automated Affymetrix Array Analysis Classification Package 
Tobias Verbeke Automated Affymetrix Array Analysis Core Package 
Automated Affymetrix Array Analysis Preprocessing 
Package 

Tobias Verbeke Automated Affymetrix Array Analysis Reporting Package 


onarim Microarray QA and statistical data analysis for Applied 
Ра 9 Biosystems Genome Survey Microrarray (AB1700) gene 


™ BiologicalDomains (80) 

+ Infrastructure (168) 
AnnotationData (666) 
ExperimentData (137) 


Tobias Verbeke 


图 4-1 Bioconductor 的 BiocViews 界 面 
422 ”软件 包 的 进一步 介绍 


在 三 大 类 包 中 ， 软 件 包 尤 为 重要 ， 因 为 用 户 使 用 Bioconductor 最 主要 的 目的 就 是 对 其 
提供 的 算法 和 数据 处 理 方法 的 调用 ， 因 此 需要 对 软件 包 中 的 六 组 具体 应 用 做 一 个 简单 介绍 。 
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这 种 早期 的 划分 方式 现在 看 来 比较 混乱 ， 不 能 提供 很 好 的 结构 以 适应 各 类 具体 应 用 ， 因 此 
读者 只 需要 简单 了 解 一 下 即 可 。 考 虑 到 К 包 的 动态 变化 ， 下 面 列 出 的 分 类 与 最 新 版 本 的 内 
容 会 有 一 些 差异 。 


(1) 注释 (Annotation) 


生物 数据 (如 序列 ) 的 注释 是 生物 信息 学 一 个 非常 重要 的 领域 ， 而 且 随 着 各 种 生物 基 
因 组 测序 任务 的 完成 ， 以 及 表达 序列 标记 (Expressed Sequence Тар, EST) 和 基因 表达 数据 
的 大 量 积累 ， 序 列 注释 的 工作 量 和 复杂 度 大 大 增加 。Bioconductor 提供 了 大 量 的 工具 和 元 数 
据 用 于 各 类 生物 数据 的 注释 ,“ 注 释 ” 即 作为 一 组 软件 包 单独 分 类 ， 又 作为 一 个 应 用 领域 分 
类 介绍 ( 详 见 4.2.3)。 考 虑 到 很 多 工具 是 针对 某 种 元 数据 的 ， 后 者 的 分 类 方式 更 为 合理 。“ 注 
释 ” 作 为 一 组 软件 包 ， 可 进一步 分 为 以 下 几 部 分 : 

* 基因 本 体 论 (Gene Ontology, GO) 

。 通路 分 析 (Pathways) 

。 平台 属性 (Proprietary Platforms) 

。 RAER (Report Writing) 


(2) 微 阵 列 板块 (Assay Domains) 


这 个 组 的 包 主 要 用 于 处 理 基 因 芯 片 数据 。Bioconductor 可 支持 几乎 所 有 主流 芯片 数据 
格式 ， 从 Affymetrix 公司 的 商业 化 单 色 窒 核 痛 酸 芯片 ， 到 用 户 定制 的 双色 cDNA 芯片 。 芯 
片 分 析 包 括 数据 预 处 理 、 差 异 表 达 基 因 和 第 选 以 及 聚 类 分 析 等 。 有 关 基 因 营 片 数据 处 理 的 内 
容 会 在 第 五 章 详细 介绍 。 这 个 组 的 包 可 进一步 分 为 以 下 几 部 分 : 

。 比较 基因 组 杂交 (Comparative Genomic Hybridization, ССН) 
细胞 水 平 检测 (Cell Based Assays) 

。 染色 质 免疫 共 沉 淀 蕊 片 (ChIPchip) 
拷贝 数 变 异 (Сору Number Variants ) 
CpG 岛 (CpGIsland) 

差异 表达 (Differential Expression ) 
DNA 甲 基 化 (DNA Methylation) 
外 显 子 检测 (Exon Array ) 

基因 表达 (Gene Expression) 

。 遗传 变异 性 (GeneticVariability ) 

。 单 核 彰 酸 多 态 性 SNP) 

。 转录 (Transcription) 


G) 高 通 量 实验 技术 (Assay Technologies) 


这 个 组 的 包 将 可 以 处 理 的 高 通 量 实验 数据 ， 从 基因 芯片 扩展 到 了 包括 质谱 、 流 式 细 胞 
仪 和 高 通 量 测序 等 领域 。 例 如 ， 高 通 量 测序 (High Throughput Sequencing) 类 的 ShortRead 
包 是 一 个 对 高 通 量 测序 数据 进行 输入 、 质 量 评估 和 预 处 理 的 包 。 这 个 组 的 包 进 一 步 分 为 以 
下 几 部 分 : 
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。 基因 芯片 〈Microarray ) 

。 微 孔 板 检测 (Microtitre Plate Assay) 

。 质谱 (Mass Spectrometry ) 

。 基因 表达 系列 分 析 (Serial Analysis of Gene Expression, SAGE ) 
。 流 式 细胞 仪 (Flow Cytometry) 

。 测序 (Sequencing) 

。 高 通 量 测序 (High Through put Sequencing) 


(4) 生物 信息 学 (Bioinformatics) 


这 个 组 的 包 主 要 为 生物 数据 的 处 理 提供 各 种 通用 的 流程 和 算法 。 主 要 的 流程 包括 基因 
芯片 数据 预 处 理 〈 如 背景 校正 、 归 一 化 和 质量 控制 等 )、 分 析 基 因 芯 片 数据 、 研 究 基 因 之 间 
的 关系 、 研 究 样 本 之 间 的 关系 和 识别 差异 表达 基因 等 。 一 些 常见 的 数据 分 析 方 法 (如 分 类 
分 析 、 育 类 分 析 和 时 间 序 列 分 析 等 都 包含 在 内 。 这 个 组 的 包 可 进一步 分 为 以 下 几 部 分 : 

°- ЖӘЕ (Clustering) 

。 分 类 (Classification) 

。 富 集 分 析 (Enrichment) 

多 组 比较 (Multiple Comparisons) 
。 预 处 理 (Preprocessing) 

质量 控制 (Quality Control) 

序列 匹配 (Sequence Matching) 
时 间 序 列 分 析 (Time Course) 

。 可视化 (Visualization) 

网 络 分 析 (Networks) 


(5) 生物 学 板块 《Biological Domains) 


这 个 组 的 包 侧 重生 物 〈 特 别 是 各 类 组 学 ) 数据 的 下 游 分 析 。 例 如 ， 细 胞 生物 学 〈Cell 
Biology) 类 的 SamSPECTRAL 包 帮 助 用 户 确定 流 式 细 胞 仪 数据 中 的 细胞 群 ， 遗 传 学 
(Genetics) 类 的 TSSi 包 帮 助 用 户 确定 高 质量 测序 数据 中 的 转录 起 始 位 点 ;蛋白 组 学 
(Proteomics) 类 的 clippda 包 为 用 户 提 供 一 些 分 析 来 自 临床 样本 的 蛋白 质 组 学 数据 的 方法 ， 
涵盖 实验 设计 和 参数 确定 等 方面 。 这 个 组 的 包 可 进一步 分 为 以 下 几 部 分 : 

。 细胞 生物 学 〈Cell Biology) 

。 遗传 学 (Genetics) 

。 代谢 组 学 〈Metabolomics ) 

。 蛋白质 组 学 〈Proteomics ) 


(6) Bioconductor 基础 架构 (Infrastructure ) 


这 个 组 的 包 主 要 给 用 户 提 供 一 些 通 用 工具 ， 包 括 数据 的 输入 、 输 出 和 图 像 可 视 化 等 。 
数据 输入 〈DataImport) 类 的 Rsamtools 包 提 供 了 一 个 统一 接口 可 以 接受 下 一 代 测 序 中 常见 
文件 格式 (例如 SAM 和 ВАМ 格式 ) 的 输入 。 图 形 用 户 界面 (Graphical User Interface, GUI) 
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类 的 oneChannelGUI 包 提供 一 个 用 户 界面 ， 方便 用 户 分 析 基 因 表 达 芯 片 和 miRNA/RNA-seq 
数据 。 这 个 组 的 包 可 进一步 分 为 以 下 几 部 分 : 

。 数据 输入 《Data Import ) 

。 数据 呈现 (Data Representation ) 

。 图 和 网 络 (Graphs Апа Networks) 

。 图 形 用 户 界面 (Graphical User Interface ) 

。 可 视 化 〈Visualization ) 


4.2.3 按照 应 用 领域 分 类 


为 了 方便 用 户 根据 应 用 目的 快速 找到 相关 的 R 包 , Bioconductor 网 站 在 首页 提供 了 一 个 
根据 应 用 领域 的 简单 分 类 ， 这 个 分 类 体现 在 当前 最 主要 的 应 用 领域 ， 而 且 主 页 上 显示 的 那 
些 领 域 是 动态 变化 的 ， 本 书 根 据 Bioconductor 2.11 (2012 年 10 月 访问 ) 的 主页 内 容 ， 简 单 
介绍 下 列 5 个 应 用 领域 。 


(1) 基因 芯片 (Microarrays) 


Bioconductor 的 起 源 就 来 自 基 因 芯 片 数据 分 析 ， 因 此 这 方面 的 支持 是 最 全 面 的 ， 涵 盖 
了 多 个 芯片 厂商 和 多 种 芯片 类 型 ， 主 要 的 芯片 提供 商 包 括 Affymetrix A7], Ilumina 公司 、 
Nimblegen 公司 和 Agilent 公司 ; 芯片 类 型 有 基因 表达 蕊 片 《Expression arrays)、 外 显 子 芯片 
(Exon arrays)、 拷 贝 数 变异 (检测 ) 芯 片 (Copy number arrays), SNP CHMI ) i} CSNP arrays)、 
DNA 甲 基 化 (检测 ) 芯片 (Methylation arrays) 等 。 基 因 芯 片 数据 分 析 的 主要 工作 包括 预 
处 理 (Pre-processing)、 质 量 评估 (Quality assessment)、 差 异 基因 表达 分 析 (Differential gene 
expression analysis )、 基 因 集 富 集 分 析 (Gene set enrichment analysis) 和 遗传 基因 组 学 等 。 
Bioconductor 提供 了 主要 基因 芯片 数据 库 (如 СЕО 和 ArrayExpress) 的 接口 ， 方 便 获 取 芯 
片 数据 。 

针对 不 同 基因 芯片 厂商 和 类 型 , Bioconductor 开发 了 多 种 不 同 的 包 分 别处 理 不 同类 型 数 
据 ， 包 与 芯片 种 类 的 对 应 关系 非常 复杂 ， 下 面 根据 各 种 芯片 数据 ， 简 单 介绍 一 些 常用 的 扩 
展 包 。 

Affymetrix 3” -biased Arrays 芯片 的 数据 处 理 需 要 affy 包 、gcrma 包 和 affyPLM 包 ， 这 些 
包 又 依赖 芯片 定义 (CDF)、 探 针 Probe) 和 注释 (Annotation) 三 个 包 ， 后 三 个 包 会 自动 
安装 ; Affymetrix 3’ -biased Arrays 芯片 还 需要 xps 包 , xps 包 依 赖 ROOT 包 ( 必 须 手 动 安装 )， 
可 以 直接 使 用 Affymetrix 芯片 产生 的 数据 文件 格式 ， 包 括 CDF, РСЕ. СІЕЯ CSV. 

Affymetrix Exon ST Arrays 芯片 和 Affymetrix Gene ST Arrays 芯片 的 数据 处 理 需 要 oligo 
包 和 xps 包 。Oligo 包 需 要 预先 使 用 pdInfoBuilder 包 创 建 一 个 pdInfoPackage 包 ， 后 者 可 以 
合并 芯片 定义 (CDF)、 探 针 〈Probe〉 和 注释 (Annotation) 三 种 数据 。 

Affymetrix SNP Arrays 芯片 的 数据 处 理 仅 仅 需 要 oligo 包 。Oligo 包 需 要 预先 使 用 
pdInfoBuilder 包 创 建 一 个 pdInfoPackage 包 ， 后 者 可 以 合并 芯片 定义 (CDF), RE (Probe) 
和 注释 (Annotation) 和 单 体 型 图 (HapMap) 四 种 数据 。 但 是 当前 的 oligo 包 还 不 能 处 理 SNP5.0 
和 SNP6.0 中 的 拷贝 数 变 异 〈Copy-number variation, СМУ) 的 区 域 。 
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Affymetrix Tilling Arrays 芯片 和 Nimblegen Arrays 芯片 的 数据 处 理 仅仅 需要 oligo 包 。 

Illumina Expression Microarrays 芯片 的 数据 处 理 需要 lumi 包 和 beadarray 包 。lumi 包 和 
beadarray 包 都 需要 各 自 独 有 的 映射 包 和 注释 包 ， 如 lumi 包 需 要 lumiHumanAll.db 包 和 
lumiHumanIDMapping 包 ; beadarray 需要 illuminaHumanv1BeadID.db 包 和 illuminaHumanV1.db 
包 。 


(2) 测序 数据 (Sequence data) 


Bioconductor 可 以 处 理 多 种 与 测序 〈 特 别 是 高 通 量 测序 ) 结果 相关 的 文件 类 型 ， 包 括 
Fasta, Fastq, SAM, BAM, Gff, Bed 和 Wig 等 。 对 测序 数据 的 处 理 ， 一 般 包 括 测序 结果 
的 预 处 理 〈 例 如 去 除 低 质 量 和 污染 等 步骤 C)、 格 式 转换 (Transformation)、 序 列 对 比 
(Alignment) 、 测 序 质量 评估 、RNA-seq 实验 数据 处 理 及 表达 差异 分 析 和 ChIP-seq 实验 数据 
处 理 等 方面 。 

Bioconductor 的 SRAdb 包 提 供 了 对 SRA (Sequence Read Archive) 数据 库 的 接口 。SRA 
是 NCBI 在 2007 年 底 推出 的 , 专门 用 于 存储 、 显 示 、 提 取 和 分 析 高 通 量 测 序数 据 的 数据 库 ， 
其 范围 涵盖 基因 组 、 转 录 组 和 表 观 遗传 学 等 多 个 方面 ， 是 当前 最 为 重要 的 高 通 量 测序 数据 
公共 数据 库 。 

ShortRead 包 一 般 将 高 通 量 测序 数据 作为 输入 ， 提 供 质量 控制 、 去 污染 等 数据 预 处 理 基 
本 功能 ; Rsamtools 包 的 输入 数据 是 将 测序 得 到 的 读 段 比 对 到 参考 基因 组 或 者 转录 组 的 结果 
文件 (如 SAM 和 BAM 格式 )， 主 要 完成 的 功能 包括 文件 格式 转换 和 一 些 比 对 结果 的 统计 
与 分 析 ; ”rtracklayer 用 于 将 数据 导入 到 UCSC 基因 组 浏览 器 (http://genome.ucsc.edu)， 并 
进行 浏览 和 操作 ， 也 可 用 于 将 数据 导出 。 

IRanges 包 、 GenomicRanges 包 和 genomeIntervals 包 都 是 基于 ОМА 区 域 ( 如 染色 体 
区 域 ) 对 数据 进行 计算 、 操 作 和 表示 的 扩展 包 。 Biostrings 包 和 集成 了 序列 比 对 (Alignment) 
和 模式 匹配 (Pattern matching) 等 非常 基本 的 序列 分 析 函 数 ， 将 在 本 章 43 详细 介绍 。 
BSgenome 包 用 于 访问 或 者 操作 带 有 注释 信息 的 全 基因 组 数据 ，GenomicFeatures 包 用 于 对 
基因 组 中 的 序列 特征 (如 编码 区 )〉 进行 注释 。 

RNA-seq 数据 分 析 和 差异 表达 分 析 方 面 常 用 的 扩展 包 主 要 有 edgeR、DESeq、baySeq、 
DEGseq 和 DEXSeq。 DEXSeq 包 可 以 用 于 外 显 子 水 平 〈Exon-level) 的 差异 表达 分 析 ， 但 
是 要 求 R 的 版 本 必须 高 于 2.14。 这 些 包 将 在 第 六 章 详细 介绍 。 

ChIP-seq 数据 分 析 及 相关 分 析 ， 如 基 序 发 现 (Motif discovery) 和 结合 位 点 检测 (Peak 
calling) 等 , 可 以 使 用 以 下 包 : CSAR、 chipseq、ChIPseqR、ChIPsim、ChIPpeakAnno、 DiffBind、 
iSeq、rGADEM、segmentSeq、BayesPeak 和 PICS. 

更 多 的 高 通 量 测序 数据 处 理 相关 的 扩展 包 的 信息 ， 可 以 进入 【biocViews】 查 找 : 选择 
软件 包 类 【 Software 】 祖 高 通 量 实验 技术 【 AssayTechnologies 】 祖 高 通 量 测序 
【HighThroughputSeqencing ]. 


(3) 注释 (Annotation) 


上 文 提 到 , Bioconductor 提供 了 大 量 的 包 来 进行 生物 信息 注释 , 这 些 包 既 包 括 注释 工具 ， 
又 包括 各 种 注释 数据 ， 或 者 连接 到 注释 数据 库 的 接口 等 等 。 这 里 按照 注释 方式 做 一 个 简单 
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的 分 类 ， 并 且 介 绍 几 个 核心 的 注释 包 ， 为 读者 提供 一 个 整体 框架 。 本 书 将 Bioconductor 中 
注释 的 方式 分 为 三 类 。 

第 一 大 类 是 基于 AnnotationDbi 包 的 扩展 包 。AnnotationDbi 包 的 重要 性 达到 了 “ 绝 大 部 
分 注释 包 都 依赖 AnnotationDbi 包 ” 的 水 平 。 一 旦 使 用 biocLite 函数 安装 任何 一 个 “.db” 注 
释 包 ， AnnotationDbi 包 都 会 被 自动 安装 。AnnotationDbi 包 实 现 了 “.db” 注 释 包 的 创建 和 
操作 ， 并 能 创建 个 性 化 的 芯片 平台 〈Custom chip platforms )。 这 类 注释 包 可 以 进一步 分 为 : 
物种 型 注释 包 , 如 org.Mm.eg.db、org.Hs.eg.db 和 org.Rn.eg.db 等 ;平台 型 注释 包 , 如 Affymetrix 
公司 的 hgu133plus2.db 等 ， 系 统 生物 学 注释 包 ， 如 GO.db 和 KEGG.db 等 。 

。 物种 型 注释 包 包括 整个 物种 相关 的 基因 数据 ， 其 命名 格式 为 :“org.Xx.yy.db”。“Xx?” 
是 种 属 的 缩写 ,“yy” 是 来 源 数据 库 ID， 用 于 把 所 有 数据 连 到 一 起 。 例 如 : org.Hs.eg.db 注释 
包 中 ， 其 种 属 是 “Hs” ID 源 是 “eg”。 

。 平台 型 注释 包 依 赖 于 具体 实验 平台 ， 最 典型 的 就 是 芯片 注释 包 ， 其 命名 格式 为 : 
“platformName.db”。“platformName” 是 芯片 平台 的 名 称 。 例 如 hgu95av2.db 包 ， 就 是 对 应 
Affymetrix 公司 的 hgu95av2 基因 芯片 。 另 外 ，Affymetrix 相关 平台 的 每 个 “.db” 包 还 需要 
其 对 应 的 “.cdf” 和 “.probe” 包 。 其 名 称 格 式 为 : “platformName.cdf” 和 “platformName.probe”。 

。 系统 生物 学 注释 包 用 于 设备 无 关 的 下 游 分 析 ( 例 如 基因 功能 分 析 )。 例 如 :KEGG.db 用 
于 获取 KEGG (Kyoto Encyclopedia of Genes and Genomes) 数据 库 中 的 数据 : GO.db 用 于 
获取 基因 本 体 论 (Gene Ontology) 的 数据 ; PFAM.db 用 于 获取 不 同 蛋 白 家 族 的 特征 和 相关 

第 二 大 类 是 利用 biomaRt 包 获 取 注 释 信 息 。biomaRt 包 与 AnnotationDbi 注释 包 的 最 大 
不 同 在 于 它 提 供 的 注释 信息 都 来 自 远 程 服务 器 ，biomaRt 包 只 是 提供 了 一 组 接口 ， 而 
AnnotationDbi 注释 包 将 数据 本 地 化 。 虽 然 biomaRt 包 在 注释 速度 上 严重 依赖 网 络 的 连接 速 
度 ， 但 它 具 有 无 需 维 护 ， 不 占用 本 地 存储 空间 和 注释 信息 自动 更 新 等 突出 优点 ， 这 部 分 内 
容 将 在 4.3.2 详细 介绍 。 

第 三 大 类 是 指 前 两 类 以 外 的 其 他 注释 资源 。 一 个 例子 就 是 以 基因 组 浏览 器 为 基础 的 
Rtracklayer 包 , 它 负责 完成 R 中 数据 结构 GRanges objects 与 常见 基因 组 文件 格式 (如 Wig、 
Bed 等 ) 相互 转换 ， 成 为 R 与 基因 组 浏览 器 之 间 的 桥梁 。 此 外 ， 还 有 一 些 下 游 的 数据 分 析 
也 时 常 被 人 们 视 为 注释 的 一 部 分 ， 但 实现 上 它们 已 经 超出 了 注释 的 本 意 ， 如 基于 注释 信息 
进行 聚 类 分 析 所 涉及 的 包 、 用 于 分 类 分 析 的 Category 包 、 对 已 注释 的 基因 本 体 论 术语 做 超 
几何 检验 的 GOstats 包 。 

在 三 类 注释 方式 中 ， 利 用 biomaRt 包 获 取 注 释 信 息 最 为 重要 ，biomaRt 可 以 连接 到 各 主 
要 生物 信息 数据 库 以 获取 注释 信息 和 数据 (如 DNA 序列 )， 功 能 最 为 强大 ， 在 学 习 基 于 
AnnotationDbi 包 的 注释 过 程 中 ， 重 点 要 放 在 如 何 使 用 “.db” 注 释 包 ， 对 于 如 何 利用 
AnnotationDbi 包 创 建 “.db” 注 释 包 可 以 简单 了 解 ; 第 三 大 类 包 情 况 复 杂 ， 需 要 通过 以 后 的 
学 习 慢 慢 积累 经 验 ， 没 有 通用 的 规律 可 以 遵循 。 


(4) 变异 注释 (Variants ) 


这 个 领域 只 有 一 个 扩展 包 VariantAnnotation 。 随 着 下 一 代 测 序 技术 (NGS ) 的 快速 发 展 ， 
对 于 基因 组 中 不 同 个 体 之 间 的 遗传 信息 进行 突变 分 析 已 经 成 为 疾病 诊断 及 分 析 的 重要 手 
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段 。 通 过 SAMTOOLS 等 软件 对 NGS 测序 结果 分 析 ， 可 以 得 到 包含 插入 与 缺失 (INDELs) 
和 SNP 突变 信息 的 文件 (格式 称 作 Variant Call Format, VCF)» Variant Annotation 扩展 包 用 
于 读 取 УСЕ 文件 , 以 获得 ОМА 在 基因 组 的 定位 信息 或 者 编码 区 中 氨基 酸 的 无 义 突变 等 信息 。 


(5) 高 通 量 实验 (High Throughput Assays) 


Bioconductor 有 许多 分 析 高 通 量 实验 的 包 ， 用 于 处 理 流 式 细胞 仪 (Flow Cytometry)、 定 
Ж PCR (Quantitative real-time РСК). ЛАЙ (Mass spectrometry), E HJH (Proteomics) 
和 其 他 基于 细胞 水 平 的 高 通 量 数据 。 以 下 简要 介绍 一 下 与 上 述 几 类 高 通 量 试验 数据 分 析 相 关 的 一 些 
重要 的 扩展 包 ， 详 细 信息 可 参考 扩展 包 主 页 (http:/wwwbioconductororg/packages/release/bioc/) 或 
相关 文献 (http://www.bioconductor.org/help/publications/)。 

流 式 细胞 仪 : flowCore、flowViz、flowQ、flowStats、flowUtils、flowFP、flowTrans 和 
iFlow 等 В 包 使 用 标准 的 FCS 文档 (Data File Standard for Flow Cytometry), 包括 基础 架 
构 、 应 用 、 可 视 化 和 流 式 细胞 仪 数 据 的 半自动 化 分 析 方 法 ; flowClust、 flowMeans、 flowMerge 
和 SamSPECTRAL 等 包 提 供 了 算法 来 聚 类 流 式 细胞 仪 数据 ; 文档 flowWorkFlow.pdf 
(http://www.bioconductor.org/help/workflows/high-throughput-assays/flowWorkFlow.pdf ) 中介 
绍 了 一 个 应 用 flowCore、flowViz、flowQ 和 flowStats 等 包 的 典型 工作 流程 ， 流 程 中 用 到 的 
数据 下 载 自 http://www.bioconductor.org/help/workflows/high-throughput-assays/dataFiles.tar。 

细胞 水 平 检测 : cellHTS2 和 RNAither 两 个 包 用 于 对 细胞 水 平 高 通 量 簿 选 提供 数据 结构 
和 算法 ; RTCA 这 个 包 用 于 支持 xCELLigence 系统 ， 这 个 系统 包含 一 系列 的 实时 细胞 分 析 
仪 (Real-time cell analyzer, RTCA). 

高 通 量 定量 PCR 试验 : HTgPCR、ddCt 和 qpcrNorm 等 包 主 要 提供 了 如 何 分 析 定 量 实 时 
PCR 的 循环 阀 值 (Cycle threshold) 的 算法 。 

质谱 和 和 蛋白 组 数据 : clippda、 MassArray、 MassSpecWavelet、 PROcess、 flagme 和 
xcms 等 包 主要 为 质谱 和 和 蛋白 质数 据 提供 分 析 框 架 、 可 视 化 和 统计 分 析 。 

基于 图 像 的 试验 : EBImage 等 包 主 要 为 基于 图 像 的 表 型 分 型 ， 或 其 他 关于 图 像 〈 处 理 ) 
任务 的 自动 化 提供 一 个 基础 框架 。 


4.3 从 R 到 了 Bioconductor 的 跨越 


读者 从 第 三 章 基 本 了 解 了 R 和 Bioconductor 的 编程 思路 以 及 两 者 之 间 的 差异 。 例 3-2 
与 例 3-1 相 比 ，Bioconductor 能 做 到 的 ， 用 一 般 的 R 编程 也 能 做 到 ， 只 是 Bioconductor 大 大 
简化 了 编程 ， 但 这 还 不 能 体现 Bioconductor 的 全 部 价值 。 从 下 面 的 例子 你 就 能 看 出 ， 有 些 
工作 用 Bioconductor 几 行 代码 即 可 轻松 解决 ， 但 是 如 果 用 普通 的 R 包 来 实现 ， 几 乎 就 是 不 
可 能 完成 的 任务 。 这 是 为 什么 呢 ? 原因 很 简单 。Bioconductor 的 核心 开发 人 员 花 费 了 大 量 精 
力 来 构建 Bioconductor 的 三 大 板块 架构 。 数 据 - 算 法 -注释 ， 这 三 个 环节 紧密 相 扣 ， 而 且 无 
颖 连接 ， 所 有 的 R 包 开 发 者 都 遵循 这 个 架构 ， 根 据 一 定 标准 开发 软件 ， 这 种 开发 模式 ， 任 
何 个 人 和 公司 都 不 可 能 比拟 。 这 就 是 为 什么 Bioconductor 不 能 被 普通 的 R 包 组 合 所 替代 。 

下 面 从 三 大 板块 角度 各 举 一 个 代表 性 的 扩展 包 (Biostrings、BiomaRt 和 AnnotationDbi) 
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的 应 用 实例 ,来 帮助 初学 者 适应 Bioconductor 的 编程 思维 。 对 于 一 名 Bioconductor 的 初学 者 ， 
熟悉 和 掌握 这 些 基础 的 包 就 是 实现 从 R 到 Bioconductor 跨越 的 第 一 步 。 


4.3.1 应 用 Biostrings 处 理 生物 序列 


Bioconductor 中 的 软件 包 提供 了 各 种 算法 和 程序 用 于 处 理 各 类 生物 数据 , 从 最 基本 的 序 
列 分 析 、 注 释 到 各 种 高 层次 的 应 用 (如 基因 芯片 处 理 )。 本 书 篇 幅 有 限 ， 不 可 能 一 一 举例 ， 
这 里 以 一 个 非常 基本 的 软件 包 Biostrings 为 例 讲 解 软 件 包 的 使 用 方法 。Biostrings 主要 用 于 
对 生物 分 子 序列 进行 定义 、 处 理 和 分 析 等 ， 它 有 一 个 基础 类 BString， 下 面 有 三 个 继承 类 : 
DNAString、RNAString 和 AAString， 分 别 对 应 ОМА. КМА 和 氨基酸 序列 。 下 面 首先 安装 
Biostrings 包 ， 并 安装 人 类 基因 组 序列 数据 包 《 版 本 号 H19) 和 人 类 基因 组 表达 谱 芯 
HG-U133A 的 探 针 数据 包 ， 然 后 通过 几 个 实例 帮助 读者 掌握 Biostrings 的 用 法 。 


# 安装 本 章 用 到 的 软件 包 : 
source("http://www.bioconductor.org/biocLite.R"); 
biocLite("Biostrings"); 
biocLite("BSgenome.Hsapiens.UCSC.hg19"); 
biocLite("hgu133a2probe"); 

# 加 载 Biostrings 包 。 

library(Biostrings); 

# 加 载 人 类 基因 组 序列 数据 包 。 
library(BSgenome.Hsapiens.UCSC.hg19); 

# 加 载 HG-U133A 的 探 针 数据 包 。 
library(hgu133a2probe); 
ЕНЕНЕ HNN HH HNN HNN HH HH HHH HH 


例 4-1: 基本 操作 : 互补 ， 反 向 ， 反 向 互补 ， 翻 译 ， 转 录 和 逆转 录 。 
# 用 DNAString 生成 一 个 дпа 对 象 。 
dna<-DNAString("TCTCCCAACCCTTGTACCAGT"); 
# 查看 这 个 对 象 。 
апа; 
21-letter "DNAString" instance 
seq: ТСТСССААСССТТСТАССАСТ 
# 将 对 象 dna 由 DNAString 类 型 转 为 "RNAString" 类 型 ， 直 接 查 看 内 容 。 
Biostrings::dna2rna(dna); 
21-letter "RNAString" instance 
seq: UCUCCCAACCCUUGUACCAGU 
# 将 对 象 dna 中 的 ОМА 转录 ， 产 生 一 个 "RNAString" 类 型 新 对 象 rna. 


rna<-transcribe(dna); 
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# 查看 rna 内 容 
тпа 
21-letter "RNAString" instance 
seq: AGAGGGUUGGGAACAUGGUCA 
# 再 转 为 "DNAString" 类 型 ，RNA 序列 中 的 TU 全 部 替换 为 T。 
rna2dna(rna); 
21-letter "DNAString" instance 
seq: AGAGGGTTGGGAACATGGTCA 
# 对 象 ma 逆转 录 ， 得 到 新 对 象 cD〈"DNAString" 类 型 )。 
cD<-cDNA(rna); 
# 查看 ma 的 三 连 密码 子 。 
сойопѕ(тпа); 


Views оп а 21-letter RNAString subject 
subject: AGAGGGUUGGGAACAUGGUCA 


views: 
start end width 

[1] 1 3 3 [AGA] 
[2] 4 6 3 [GGG] 
[3] 7 9 з [006] 
[4] 10 12 3 [GGA] 
[5] 13 15 3 [АСА] 
[6] 16 18 3 [UGG] 


[7] 19 21 3 [UCA] 


# rna 翻译 ， 产 生 新 对 象 АА 〈'"AAString" 类 型 )。 
АА <-translate(rna); 


# 查看 AA 的 内 容 。 
АА; 
7-letter "AAString" instance 
seq: RGLGTWS 
# dna 的 互补 ， 又 得 到 一 个 "DNAString" 类 型 的 对 象 。 
complement(dna); 
21-letter "DNAString" instance 
seq: AGAGGGTTGGGAACATGGTCA 
# апа 的 反 向 互补 序列 ， 还 是 "DNAString" 类 型 的 对 象 。 
reverseComplement(dna); 
21-letter "DNAString" instance 
seq: ACTGGTACAAGGGTTGGGAGA 
# апа 的 反 向 序列 ， 还 是 "DNAString" 类 型 的 对 象 。 
reverse(dna); 
21-letter "DNAString" instance 
seq: TGACCATGTTCCCAACCCTCT 
ЖУРЕ HH HHHH ЕЛЕЕ ЕЕЕ NN HNN NHI HH HHH HH HH 
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例 4-2: 统计 人 类 基因 组 数据 中 的 碱 基 频 率 。 

# 将 第 22 号 染色 体 全 序列 对 有 N 的 地 方 遮盖 ， 以 方便 后 续 步 又 时 提高 工作 效率 。 
chr22NoN <-mask (Hsapiens$chr22, "N"); 

# 统计 第 2 号 染色 体 全 序列 中 的 所 有 基础 碱 基 [ATCG] 的 出 现 次 数 。 
alphabetFrequency(Hsapiens$chr22, baseOnly =TRUE); 


A с G T other 
9094775 8375984 8369235 9054551 0 


+ 再 统计 染色 体 中 所 有 碱 基 的 出 现 次 数 。 
alphabetFrequency(Hsapiens$chr22); 


А с G T M R № 5 Y 
9094775 8375984 8369235 9054551 0 0 о 0 0 
长 у H D B N 一 + 
0 0 0 0 0 0 0 0 
# 看 看 Hsapiens$chr22 是 否 只 有 基础 碱 基 [ATCG] (字母 )。 


hasOnlyBaseLetters(Hsapiens$chr22); 

[1] TRUE 

# 显示 Hsapiens$chr22 Hitik (FEH PHR (PETR). 

uniqueLetters(Hsapiens$chr22); 

[1] "A" "C" "G" "T" 

# 计算 Hsapiens$chr22 中 C С 的 数量 ， 注 意 不 是 CG 两 连 子 。 

GC_content<-letterFrequency(Hsapiens$chr22, letters ="СС"); 

# 查看 C 或 G 的 数量 。 

GC_content 

CIG 

16745219 

# 计算 Hsapiens$chr22 中 C 或 G 所 占 的 含量 (比例 )。 

GC_pencentage<-letterFrequency(Hsapiens$chr22,letters="CG")/letterFrequency(Hsapiens$ 
chr22, letters ="АССТ"); 

# 查看 C 或 G 的 含量 。 

GC_pencentage 

CIG 

0.4799 

ВНЕ HH HON HH 


例 4-3: 模板 匹配 ， 在 一 组 序列 中 匹配 一 个 模板 。 

# 生成 连续 7 个 碱 基 组 成 的 模板 。 

my_pattern = "ТАТАААА"; 

# 在 chr22NoN 中 匹配 该 模板 ， 读 者 可 自己 查看 结果 。 
mT = matchPattern(my_pattern, chr22NoN); 

# 计算 chr22NoN 中 匹配 该 模板 的 数量 。 
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countPattern(my_pattern, chr22NoN); 
[1] 5276 
# 在 chr22NoN 中 匹配 该 模板 且 允 许 一 个 错 配 。 
mmT = matchPattern(my_pattern, chr22NoN, max.mismatch =1); 
# 另 一 种 方法 计算 匹配 的 数量 ， 可 以 看 到 多 匹配 了 很 多 。 
length(mmT); 
[1] 102178 
# 观察 前 5 个 匹配 得 到 的 片段 中 错 配 碱 基 所 在 的 位 置 。 
mismatch(my_pattern, mmT[1:5]); 

[111 

[1] 2 


[[211 
[1] 5 


[[311 
[11 7 


[[4]] 
[1] 1 


51] 
[11 2 


# 左 侧 将 要 匹配 的 模板 序列 。 
Lpattern <- "CTCCGAG"; 
# 右 侧 将 要 匹配 的 模板 序列 。 
Rpattern <- "СТТСАСА"; 


# 用 左右 模板 同时 匹配 Hsapiens$chr22， 要 求 中 间 的 序列 长 度 不 能 超过 500bp。 
LRsegments<-matchLRPatterns(Lpattern, Rpattern, 500, Hsapiens$chr22); 
# 查看 匹配 到 的 前 5 条 序列 。 


LRsegments[1:5]; 
views on a 51304566-1еттег DNAString subject 

subject: 
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN. . . NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 
views: 

start end width 
[1] 16602263 16602567 305 
[СТСССАСССТТТСААТСАТТСТССТТСАСАААССА. . . TGGGACTCAAAAACACTGCTGCTGCTCGGTTCACA] 
[2] 17620584 17620854 271 
[CTCCGAGTAGCTGGGATTACAGGCACCTGCCACCA. . . TAAATTGAAATCTGCCCCTTGCTTTTCAGTTCACA] 
[3] 21741812 21742230 419 
[CTCCGAGTGCCAAGGCCAGCCCCCACAACCCTGGA. . . TACTTCGGCAAAAGCAAGATGCCCAAGGGTTCACA] 
[4] 23793654 23793992 339 
[СТСССАСТТААСССССАТТААСАТТТТСААСАТТТ. . . TTGAGAGCAGGTGTCTTCTACAAGCGAGGTTCACA] 
[5] 33218204 33218260 57 [CTCCGAGGCTGGCTCCTGTGCCCAAAGTCTTCCTCGCTGTCTCTGGGTATGTTCACA] 


са 


例 4-4: 模板 匹配 ， 在 一 组 序列 中 匹配 一 组 模板 〈 必 须 长 度 一 样 )。 
# 提取 所 有 探 针 的 序列 ， 组 成 一 组 模板 ， 存 于 对 象 dict。 
dict<-hgul33a2probe$sequence; 
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# 计算 所 有 探 针 序列 的 数量 。 


length(dict); 

[1] 247899 

+ 查看 探 针 的 长 度 nchar(dict) 有 多 少 种 ， 只 有 一 种 是 25. 
unique(nchar(dict)); 

[1] 25 

# 查看 dict 的 前 三 项 内 容 〈 探 针 序 列 )。 

dict[1:3]; 


[1] "САСССАССТССТССТСТССАТСССА" "СССССАСТССАСААСАСТСАТТССТ” 
[3] "ТоСАССССАСТСССТСАСААТСТСС" 


# 用 这 组 探 针 序列 构建 DNA 词典 〈 模 板 )， 人 允许 最 大 有 一 个 错 配 。 
pdict<-PDict(dict max.mismatch =1); 

# 用 词典 匹配 Hsapiens$chr22 序列 。 

vindex<-matchPDict(pdict, Hsapiens$chr22); 

# 每 个 模板 〈 探 针 序列 ) 对 Hsapiens$chr22 匹配 的 个 数 。 
count_index<-countIndex(vindex); 

# 计算 所 有 模板 匹配 的 总 数 。 

sum(count_index); 

[1] 51471 

# 看 看 前 3 个 模板 的 匹配 情况 ， 结果 全 是 0， 看 来 匹配 不 多 。 
count_index[1:3]; 

[1]000 

# 统计 一 下 匹配 数量 的 分 布 ， 可 以 看 到 大 部 分 (243903) 模板 的 匹配 数 都 是 0。 
table(count_index); 


count_index 


0 Я. 2 3 4 5 6 7 8 9 
243903 3549 187 100 23 25 5 4 Z 4 
10 11 12 13 14 15 17 19 27 30 
5 4 2 2 3 1 1 1 2 1 
31 32 33 35 68 90 147 153 179 186 
1 1 1 1 1 1 1 1 1 1 
190 194 196 197 205 215 250 265 275 284 
L 1 L 1 1 1 1 1 1 1 
289 297 309 310 324 331 336 338 365 384 
1 1 1 Ak 1 1 1 1 2 1 
413 417 421 444 454 461 468 479 480 487 
1 1 1 1 1 2 1 1 2. 1 
493 503 515 789 823 886 904 921 932 953 
二 工 1 1 1 1 1 1 1 1 
973 1146 1147 1206 1227 1270 1271 1284 1299 1301 
1 1 1 Я. 1 1 1 1 1 1 
1304 1306 1311 1317 1958 2130 2760 2773 
1 1 1 1. 1 1 п 1 


# 从 探 针 序列 中 提取 匹配 数 最 多 的 模版 对 应 的 序列 。 


dict[count_index == max(count_ index)]; 
[1] "СТСТААТСССАССАСТТТСССАССС" 
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# 用 这 个 序列 在 Hsapiens$chr22 匹配 ， 看 看 匹配 数量 ， 结 果 和 上 面 统计 分 布 最 后 一 个 


相同 。 


[1] 
[25] 
[49] 


сошпРаќегт("СТСТААТСССАССАСТТТСССАССС", Нѕаріепѕ$сћг22); 
[1] 2773 
Rd 


例 4-5: 搜索 回 文 结构 。 

# 计算 chr22_pals 长 度 ， 限 定 间隔 至 少 40bp。 

chr22_pals <-findPalindromes(chr22NoN, min.armlength =40, max.looplength =20); 
# 计算 chr22_pals 长 度 。 

nchar(chr22_pals); 


83 96 107 94 81 90 88 91 88 136 91 88 106 100 100 88 97 81 82 81 85 89 93 97 
101 105 109 111 107 103 99 95 91 87 83 81 86 83 85 91 83 89 113 83 96 98 97 127 
95 80 85 88 83 100 97 94 87 83 105 125 104 81 83 93 


# 查看 前 5 个 找到 的 回 文 结构 。 
chr22_pals[1:5]; 


views оп а 51304566-letter DNAstring subject 
subject: NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN. .. NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN 
views: 


start end width 


[1] 16288595 16288677 83 [GCGCGTGCGGCGTGCGCGTGCGGCGTGCGCGTGCGGC. . . GGCGTGCGCGTGCGGCGTGCGCGTGCGGCGTGCGCG] 
[2] 16288595 16288690 96 [GCGCGTGCGGCGTGCGCGTGCGGCGTGCGCGTGCGGC. . . GGCGTGCGCGTGCGGCGTGCGCGTGCGGCGTGCGCG] 
[3] 16288596 16288702 107 [CGCGTGCGGCGTGCGCGTGCGGCGTGCGCGTGCGGCG. . .CGGCGTGCGCGTGCGGCGTGCGCGTGCGGCGTGCGC] 
[4] 16288609 16288702 94 [CGCGTGCGGCGTGCGCGTGCGGCGTGCGCGTGCGGCG. . ,CGGCGTGCGCGTGCGGCGTGCGCGTGCGGCGTGCGC] 
[5] 16288622 16288702 81 [CGCGTGCGGCGTGCGCGTGCGGCGTGCGCGTGCGGCG. . .CGGCGTGCGCGTGCGGCGTGCGCGTGCGGCGTGCGC] 


# 查看 回 文 结构 序列 中 的 间隔 长 度 。 
palindromeArmLength(chr22_pals); 


[1] 83 96 107 94 8681 90 88 91 88 136 91 88 106 100 100 88 97 
[18] 81 82 81 85 89 93 97 101 105 109 111 107 103 99 95 91 87 
[35] 83 81 86 83 85 91 83 89 113 83 96 98 97 127 95 80 85 
[52] 88 83 100 97 94 87 83 105 125 104 81 83 93 


# 统计 回 文 结 构 中 的 所 有 基础 碱 基 [ATCGI] 的 出 现 次 数 。 
ans<-alphabetFrequency(chr22_pals, baseOnly =TRUE); 

# 查看 基础 碱 基 的 频率 。 

ап$; 

ЕНЕНЕ НЕНЕН т ЫЛ 


例 4—6: 序列 比 对 。 

# 用 AAString 函数 生成 一 个 "AAString" 对 象 aal。 

aal <-AAString("HXBLVYMGCHFDCXVBEHIKQZ"); 
# 用 AAString 函数 生成 一 个 "AAString" 对 象 aa2。 

aa2 <-AAString("QRNYMYCFQCISGNEYKQN"); 
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# 序列 全 局 比 对 ， 应 用 矩阵 "BLOSUM62" 打 分 ， 要 求 рар open 罚 分 为 3。 
needwunsQS(aal, aa2, "BLOSUM62", gappen =3); 

Global PairwiseAlignments (1 of 1) 

pattern: [1] HXBLVYMGCHFDCXVY-BEHIKQZ 


subject: [1] QRN--YMYC-FQCISGNEY-KQN 
score: 39 


# 用 DNAString 函数 生成 一 个 "DNAString" 对 和 象 dnal。 
dnal <-ОМАЅіппо("СТСССАСОСТТТСААТСАТ"); 


# 用 DNAString 函数 生成 一 个 "DNAString" 对 象 dna2。 
dna2 <-ОМАЅігіпр("СТСССАСТАССТСССАТТА"); 


# 构建 4X4 的 矩阵 ОМА 打分 矩阵 。 

mat <-таїгіх(-51., nrow =4, ncol =4); 

for (i in seq_len(4)) mat[i, i] <-01; 

rownames(mat) <-colnames(mat) <-ОМА_АІРНАВЕТ[1:4]; 


# 序列 全 局 比 对 ， 应 用 和 矩阵 mat 打分 ， 要 求 gap open 罚 分 为 0。 
needwunsQS(dnal, dna2, mat, gappen =0); 


Global PairwiseAlignments (1 of 1) 
pattern: [5] GAGGGTTTGAATGA 


subject: [15] ----бА----- 于 = 一 -和 -有 
score: 0 
НЕНЕН 


例 4-7: 读 写 序列 文件 (Fasta 和 Fastq 格式 ) 

# 指定 文件 的 目录 (Biostrings 安装 目录 中 的 extdata 子 目 录 ) 和 文件 名 (someOREFfa)。 
filepath<-system.file("extdata", "someORF.fa", package ="Biostrings"); 

# 显示 上 面 FASTA 文件 中 的 数据 信息 。 

fasta.info(filepath); 

# 读 取 FASTA 文件 。 

х <-readDNAStringSet(filepath); 

# 查看 FASTA 文件 的 内 容 。 

X， 


А DNAStringSet instance of length 7 
width seq names 
[1] 5573 ACTTGTAAATATATCTTTTAT. . .ATCGACCTTATTGTTGATAT YALOO1C ТЕСЗ SGDI... 
[2] 5825 ТТССААСССССАТСААТТССА. . . АААТТТТТТТСТАТТСТСТТ YALOO2W VP58 SGDI... 
[3] 2987 CTTCATGTCAGCCTGCACTTC. ..TACTCATGTAGCTGCCTCAT YALOO3W ЕЕВ1 SGDI... 
[4] 3929 CACTCATATCGGGGGTCTTAC. . .CCCGAAACACGAAAAAGTAC YALOO5C 55А1 SGDI... 
[5] 2648 АСАСАААСАСТТТСАСТТСТТ. ..TAATTTATGTGTGAACATAG YALOO7C ERP2 SGDI... 
[6] 2597 GTGTCCGGGCCTCGCAGGCGT. ..TTTTGGCAGAATGTACTTTT YALOO8W FUN14 SGD... 
[7 2780 СААСАТААТСТСАААСТТАСТ. . . ААССААСАААААААААТСАС YALOO9W SPO7 SGDI... 


# 命名 输出 文件 。 
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outl <- 'example1.fasta'; 


# 把 序列 输出 到 文件 out1， 格 式 还 是 FASTA。 
writeXStringSet(x, 001); 


# 指定 文件 的 目录 和 文件 名 (s_1_sequence.txt)， 这 个 是 FASTQ 文件 。 


filepath<-system.file("extdata", "s_1_sequence.txt", package ="Віоѕігіпрѕ") ; 


# 显示 上 面 FASTQ 文件 中 的 数据 信息 。 

fastq.geometry(filepath); 

[1] 256 36 # 表 示 数 据 有 256 条 reads， 测 序 长 度 是 36bp 

# 读 取 FASTO 文件 。 

х <-readDNAStringSet(filepath, format ="fastq"); 

# 查看 FASTQ 文件 ， 结 果 不 在 这 里 显示 。 

х; 

# 从 第 1 号 染色 体 上 按照 固定 长 度 С50Ьр) 依次 取 短 序列 Cead) 的 起 点 (向 量 )。 
sw_start<-seq.int(1, length(Hsapiens$chr1) -50, by =50); 

# 从 起 点 开始 取 read， 每 个 长 度 为 10bp， 注 意 sw 的 格式 是 "XStringViews"。 
sw<-Views(Hsapiens$chr1 , start =sw_start, width =10); 

# 变量 sw 的 格式 从 "XStringViews" 转 换 为 "XStringSet"。 
my_fake_shortreads<-as(sw, "XStringSet"); 

# 按照 "ID" 加 开头 6 个 数字 的 格式 ， 得 到 一 组 新 名 称 。 
my_fake_ids<-sprintf("ID%06d", seq_len(length(my_fake_shortreads))); 

# 用 新 名 称 替 换 旧 名 称 。 

names(my_fake_shortreads) <-my_fake_ids; 

# 查看 第 500000 到 500005 条 数据 ， 结 果 不 在 这 里 显示 。 
my_fake_shortreads[500000:500005]; 

# 命名 输出 文件 。 

out2 <- 'example2.fastq'; 

# 把 序列 输出 到 文件 out2， 格 式 是 FASTQ， 但 是 缺少 质量 信息 。 
writeXStringSet(my_ fake_shortreads, out2, format ="fastq"); 

# 产生 质量 信息 。 

my_fake_quals <- rep.int(BStringSet("DCBA@?>=<;"), length(my_fake_shortreads)); 
# 查看 my_fake_quals 内 容 ， 结 果 不 在 这 里 显示 。 

my_fake_quals; 

# 命名 输出 文件 。 

out3 <- 'example3.fastq'; 

# 把 序列 输出 到 文件 out3， 格 式 还 是 FASTQ， 这 次 含有 质量 信息 。 
writeXStringSet(my_fake_shortreads, out3, format ="fastq", qualities =my_fake_quals); 
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4.3.2 应 用 BiomaRt 获取 实验 数据 与 注释 信息 


获取 数据 是 生物 信息 分 析 的 第 一 步 ， 经 常 使 用 的 一 个 示例 数据 是 Bioconductor 中 的 慢 
性 淋巴 细胞 白血病 《Chronic Lymphocytic Leukemia, CLL) 实验 数据 包 ， 其 安装 办 法 是 在 启 
动 R 主 程序 并 运行 : 


例 4-8: 

# 安装 CLL 数据 包 。 
source("http://www.bioconductor.org/biocLite.R"); 
biocLite("CLL"); 

# 载 入 CLL 数据 包 。 

library(CLL) ; 

# 载 入 数据 《〈 库 文件 中 附带 的 示例 数据 )。 
data(CLLbatch); 


# 查看 数据 内 容 与 结构 。 


phenoData(CLLbatch); 
Ап object of class "AnnotatedDataFrame" 
sampleNames: CLL10.CEL CLL11.CEL ... CLL9.CEL (24 total) 


varLabels: sampile 
varMetadata: labelDescription 


从 上 图 ， 我 们 可 以 看 到 CLL 数据 集 一 共有 24 个 样本 ， 在 实际 应 用 中 ， 需 要 读 取 所 有 
样本 对 应 的 CEL 文件 ( 见 第 五 章 例 5-1)。 把 一 些 实验 数据 制作 成 包 , 便于 用 户 下 载 和 使 用 ， 
也 便于 开发 者 开发 和 测试 算法 。 但 是 对 于 比较 大 的 数据 或 者 经 常 动态 更 新 的 数据 或 注释 ， 
包 就 显得 力不从心 。 一 个 简单 的 解决 办 法 : Bioconductor 只 需要 提供 一 个 包 就 能 实现 
Bioconductor 与 所 有 在 线 生 物 数据 库 的 接口 , 用 户 就 可 以 根据 需要 通过 操作 这 个 包 获 取 数 据 
和 注释 信息 。 这 样 大 大 简化 了 数据 和 注释 信息 的 获取 ， 但 是 不 同 的 数据 库 对 外 提供 数据 的 
标准 和 方式 都 不 同 ， 如 何 统一 生物 信息 数据 库 的 数据 访问 就 成 为 了 一 个 关键 问题 。 

因此 ， 有 必要 介绍 一 下 由 欧洲 生物 信息 研究 所 EBD ЖП у ж (ESHL) 共同 
开发 的 BioMart 数据 管理 系统 。BioMart 系统 可 以 管理 任意 格式 的 数据 库 ， 也 可 以 按照 不 同 
的 需求 安装 不 同 的 查询 工具 和 界面 ， 由 于 其 内 部 采用 关系 型 的 数据 组 织 模式 ， 所 以 更 易于 
进行 复杂 的 数据 挖掘 研究 ， 读 者 可 以 通过 官方 网 站 Chttp:/www.biomart.org) 进一步 了 解 
BioMart。 当 前 各 主要 生物 信息 数据 库 ( 如 EBI 维护 的 Ensembl 数 据 库 ) 都 提供 了 基于 BioMart 
管理 系统 的 批量 数据 访问 服务 , 这 些 数据 库 也 可 以 统称 为 BioMart 数据 库 。 为 了 更 好 地 理解 
和 掌握 BioMart， 下 面 用 一 个 实例 来 介绍 它 的 使 用 ， 这 个 实例 的 目的 是 获得 猪 转 录 组 所 有 的 
3”"UTR 序列 〈 详 见 例 5-21)。 

登录 数据 库 所 在 的 官方 网 站 (http:/www.ensembl.org/), 点 击 其 主页 上 导航 菜单 中 的 链 
接 “BioMart” 可 以 进入 图 4-2 所 示 的 页 面 ， 页 面 的 正 下 方 底部 提供 了 YouTube 视频 教程 。 
数据 以 及 注释 信息 的 获取 通过 三 步 设 置 就 可 以 实现 : 
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第 一 步 ， 点击 左 侧 导航 条 中 “Dataset” 选 项 ,从 右 侧 表 单 中 选择 数据 库 (“DATABASE”) 
和 数据 集 (“DATASET”)。 图 4-2 中 ,选择 的 数据 库 是 ensembl 基因 组 数据 库 (“Ensembl Genes 
70”), 数据 集 是 猪 的 基因 组 〈 含 转录 组 ) 数据 [“Sus scrofa genes (Sscrofal0.2)”]。 


[е [а cour [ш ле | 


е Ensembl Genes 70 

Sus scrofa genes (Sscrofa10.2) Sus scrofa genes (Sacrofa10 
Fiers o | 

[Мопе selected] 
Auripures 
[Мопе selected] 


бшшш ИПИЕ 
[None Selected] 


E A E A k EL EE IET 


Datasets -> Filters (filtering and inputs) -> Attributes (desired output) -> Results 


Biomart tutorial: YouTube | YouKu 


4-2 iE “Dataset” HIN 


第 二 步 ， 点 击 左 侧 导 航 条 中 “Filters” 选 项 (图 4-3)， 该 选项 提供 了 多 种 筛选 条 件 ， 只 
保留 符合 条 件 的 (对 应 输出 文件 的 一 行 )。 比 如 “REGION” 选 项 ， 可 以 选择 只 保留 某 个 染 
色 体 上 的 数据 ， 还 可 以 只 选择 一 段 染 色 体 上 的 基因 ; 再 比如 “GENE” 选 项 ， 可 以 根据 基因 
的 某 种 Тр 选择 下 载 这 部 分 ID 对 应 的 数据 。 本 例 中 ， 我 们 不 做 任何 筛选 ， 保 留 全 部 数据 。 


Please restrict your query using criteria below 


a REGION: 
а GENE: 
o | е MULTI SPECIES COMPARISONS: 
[None Zanclea] | a PROTEIN DOMAINS: 
ERE в VARIATION: 


[None Selected] 


Datasets -> Filters {filtering and inputs) -> Attributes (desired output) -> Results 


Biomart tutorial: YouTube | YouKu 


4-3 WE “Filters” 4R 
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第 三 步 ， 点 击 左 侧 导 航 条 中 “Attirbutes” 选 项， 根据 多 种 条 件 筛选 数据 的 属性 (对 应 
输出 文件 的 一 列 ) 下 载 所 需要 的 数据 (序列 和 描述 信息 )。 先 选中 “Sequences” 选 项 中 的 三 
项 ， 第 一 项 是 “Header Information” > “Transcript Information” > “Ensembl Transcript ТЮ”; 
第 二 项 是 “Header Information” > “Gene Information” > “Description”; 第 三 项 是 
“SEQUENCES” > “Sequences” > “3° UTR” (K 4-4)。 全 部 条 件 设 定 后 ， 可 以 点 击 主 菜 
单 左 上 角 的 “Results” 选 项 ， 浏 览 前 10 行 数据 (图 4-5)， 并 设 定数 据 获取 的 方式 。 本 例 将 
全 部 数据 以 文件 形式 导出 ， 文 件 格 式 是 “FASTA” 格 式 。 


EE Еги [# ок: | EI 
Dataset Please select columns to be included in the output and hit Results’ when ready 
Sus scrofa genes (Sscrofa10.2) Features Variation 

Filters Structures + Sequences 

[None selected] Homologs 

Atributss в SEQUENCES: 

Ensembl Transcript ID 

3' UTR = Header Information 


Description 


Dataset 
[None Selected] 


Datasets -> Filters (filtering and inputs) -> Attributes (desired output) -> Results 


Biomart tutorial: YouTube | YouKu 


4-4 设 定 “Attributes” 选 项 下 载 序 列 和 描述 


Dataset кри шо Fie 7] =ASTRE текис ону 


Sus scrofa genes (Sscrofa10.2) | = 
Filters Whe А sa 5А 
[None selected] pè JOEN Р йй УКР 
Attributes 5 


Ensembl Transcript ID 
3' UTR 
Description 


Dataset 
[None Selected] 


Datasets -> Filters (filtering and inputs} -> Attributes (desired output) -> Results 


Biomart tutorial: YouTube | YouKu 


图 4-5 ”数据 下 载 前 预览 
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登录 网 站 下 载 数据 的 过 程 完全 可 以 通过 简单 编程 而 实现 ， 下 面 一 个 例子 ， 就 是 演示 如 
何 使 用 Bioconductor 的 biomaRt 包 实 现 这 一 过 程 的 ( 例 4-9)。biomaRt 包 不 仅 可 以 轻松 获取 
数据 库 中 的 数据 和 注释 ， 还 能 够 获取 相关 数据 或 注释 在 不 同 数据 库 间 的 关联 信息 〈 见 例 
5-22)， 为 生物 数据 和 注释 的 获取 提供 了 极 大 的 便利 ， 这 是 一 般 的 R 扩展 包 无 法 实现 的 。 


例 4-9: 

# 安装 biomaRt 包 。 

source("http://www.bioconductor.org/biocLite.R"); 

biocLite("biomaRt"); 

# Л biomaRt 包 。 

library(biomaRt) ; 

# 获取 当前 可 用 的 数据 源 ， 一 个 数据 源 叫 做 一 个 mart。 

marts <- listMarts(); 

# 只 查看 前 几 个 。 

head(marts); 

# 使 用 ensembl 数据 源 ， 如 果 知 道 用 这 个 ， 前 面 没 必 要 查看 所 有 数据 源 。 

ensembl_mart <- useMart(biomart="ensembl"); 

# 获取 ensembl_mart 中 可 用 数据 集 。 

datasets <- listDatasets(ensembl_mart); 

# 查看 前 10 个 。 

datasets[1:10, ]; 

# 使 用 猪 基 因 组 数据 集 。 

dataset_pig <- иѕераѓаѕеі"ѕ5сгоѓа репе епѕетЫ!", mart= ensembl_mart); 

# 获取 dataset_pig 数据 集 上 可 用 的 筛选 器 。 

filters <- listFilters(dataset_pig); 

# 只 查看 前 几 个， 后 面 没 用 到 任何 筛选 器 。 

head(filters); 

# 获取 可 选择 的 属性 〈 列 )。 

attributes <- listAttributes(dataset_pig); 

# 只 查看 前 几 个 。 

head(attributes); 

# 从 dataset_pig 数据 集中 提取 ensembl_transcript_id 和 description 信息 。 

idlist <- getBM(attributes= с("епѕетЫ! ігапѕсгірі_ 14", "деѕсгірйоп"), mart= dataset_pig); 

# 从 dataset_pig 数据 集中 根据 ensembl_transcript_id 提取 序列 。 

seqs=getSequence(id=idlist["ensembl_transcript_id"],type="ensembl_transcript_id",seqType 
="3utr", mart = dataset_pig); 

# 去 除 没 有 序列 内 容 的 数据 记录 。 

ѕедѕ = Seqs[!seqs[, 1]=="Ѕедиепсе unavailable", ]; 


# 去 除 没有 UTR 注释 的 数据 记录 。 
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seqs = seqs[!seqs[ ,1]=="No UTR is annotated for this transcript", ]; 

# 提取 序列 的 内 容 。 

X=Seqs[ ,1]; 

# 提取 序列 的 ID. 

names(X)=Seqs[ ,2]; 

# 结果 存 入 文件 "UTR3seqs-1.fa"， 格 式 为 fasta。 

writeXStringSet(DNAStringSet(x, иѕе.патеѕ=ТВОЕ),"ОТВЗѕедѕ-1 .а"); 

# 同时 提取 对 应 3'UTR 序列 的 cDNA 序列 。 

cDNAseqs = getSequence(id=idlist["ensembl_transcript_id"], type="ensembl_transcript_id", 
ѕедТуре="сӣпа", mart = dataset_pig); 

x=cDNAseqs[ ,1]; 

names(X)=cCDNAseqs[ ,2]; 

# 结果 存 入 文件 "UTR3seqs-1.fa"， 格 式 为 fasta。 

writeXStringSet(DNAStringSet(x, use.names=TRUE), " transcriptom.fasta"); 

读者 运行 例 4-9 并 对 比 两 次 下 载 的 结果 会 发 现 ， 编 程 下 载 的 数据 没有 添加 注释 信息 ， 
其 实 该 信息 已 经 包含 在 变量 “idlist” 中 ， 只 需 稍稍 改动 一 点 程序 ， 即 可 以 得 到 含有 注释 信 
县 的 数据 。 使 用 biomaRt 包 应 特别 注意 两 点 ， 其 一 是 该 包 很 多 函数 运行 速度 严重 依赖 网 络 
速度 ， 有 些 在 线 数据 库 对 每 次 下 载 的 数据 量 的 大 小 作出 了 限制 ， 在 批 处 理 数据 的 过 程 中 ， 
还 可 能 发 生 不 可 意料 的 错误 ; 其 二 是 biomaRt 包 中 可 用 的 数据 库 和 数据 集合 的 版 本 与 该 数 
据 库 官 方 网 站 的 版 本 不 保证 同步 更 新 ， 如 biomaRt 包 中 Ensembl 数据 库 版 本 已 经 更 新 到 
“ENSEMBL GENES 73”, 而 官方 网 站 的 BioMart 数据 库 则 可 能 还 是 "ENSEMBL GENES 70”, 
因此 使 用 数据 时 ， 一 定 要 记录 好 数据 库 版 本 ， 和 否则 将 来 无 法 重复 计算 结果 。 


4.3.3 应 用 AnnotationDbi 生成 注释 包 


基因 芯片 给 出 的 分 析 结 果 都 是 针对 芯片 控 针 组 的 ， 每 个 探 针 组 只 有 一 个 公司 自己 定义 
的 ID， 既 没有 序列 信息 ， 也 不 知道 来 自 于 该 物种 的 哪 条 基因 ， 因 此 需要 在 注释 包 的 帮助 下 
对 芯片 处 理 结果 进行 注释 。 构 建 一 个 完整 的 芯片 注释 信息 通常 需要 三 个 包 ， 它 们 有 统一 的 
命名 方式 , 例如 Affymetrix 公司 的 人 类 基因 组 表达 芯片 hgu133plus2 (型 号 ),， 它 对 应 的 三 个 
包 是 hgu133plus2.db、hgu133plus2cdf 和 hgu133plus2probe。 实 际 使 用 时 ， 主 要 用 “.db” 那 个 
包 ， 如 何 注释 芯片 的 内 容 将 在 下 一 章 详细 讲解 。 

主流 大 公司 的 芯片 ， Bioconductor 通常 都 有 对 应 的 注释 包 。 但 是 对 于 某 些 非 主流 芯片 ， 
例如 Affymetrix 公司 的 人 类 基因 组 表达 芯片 PrimeView (Œ), Bioconductor 没有 对 应 的 
注释 包 ， 需 要 用 户 自行 创建 。 PrimeView 芯片 的 最 大 的 特点 就 是 ， 它 全 面 覆 盖 人 类 基因 组 
中 已 经 注释 了 的 基因 ， 包 括 最 新 被 注释 的 基因 ; 对 于 成 熟 注 释 的 基因 ， 每 个 探 针 组 都 由 11 
个 独立 的 探 针 组 成 ， 而 对 于 其 他 基因 ， 每 个 探 针 组 由 9 个 探 针 组 成 ， 重 复 性 及 可 靠 性 极 高 ; 
不 完全 兼容 Affymetrix 公司 的 另外 两 种 人 类 基因 组 表达 芯片 Genome U133 和 
Human Gene 1.0 ST。 截 止 本 书 撰 稿 ，Bioconductor 的 注释 包 当 中 还 只 有 primeviewcdf 及 
primeviewprobe 两 个 文件 ， 缺 少 相 应 的 primeview.db 注释 文件 。 因 此 ， 用 户 只 有 通过 
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AnnotationDbi 包 来 自行 生成 。 

首先 ， 下 载 注释 文件 到 工作 目录 C:Nworkingdirectory 中 。 下 载 链接 如 下 : 
http://www.affymetrix.com/Auth/analysis/downloads/na32/ivt/PrimeView.na32.annot.csv.zip。 

然后 ， 解 压缩 ， 得 到 一 个 文本 文件 。 该 文本 文件 共 包 括 49397 (24+1+49372) 行 ，24 
行 注释 ,一 行 标题 ，49372 行 数据 ， 每 行 数据 对 应 一 个 探 针 信息 。 探 针 的 第 一 列 是 该 探 针 的 
唯一 标示 ， 即 探 针 ID (Probe.SetID )， 后 面 每 列 都 是 探 针 ID 对 应 的 一 种 数据 库 的 基因 标示 。 
这 个 就 是 第 二 章 讲 到 的 ID 映射 (ID mapping)， 这 里 不 需要 这 人 么 多 种 映射 ， 只 选择 最 常用 的 
一 种 即 可 。 例 4-10， 选 用 Entrez 的 ID (Entrez.Gene)， 最 后 得 到 探 针 ID 与 Entrez.Gene 的 
映射 文件 。 这 个 映射 文件 是 包含 两 列 内 容 的 以 “Tab” 分 隔 符 间隔 的 文本 文件 ， 第 一 列 是 探 
针 ID， 第 二 列 是 Entrez.Gene， 无 行 号 ， 无 列 名 。 


例 4-10: 

# 读 入 解压 后 的 注释 文件 。 

probeset <- read.csv("c:/workingdirectory/Prime View.na32.annot.csv", comment.char ="#"); 

# 查看 列 名 ， 可 以 看 到 每 个 探 针 可 以 对 应 到 多 少 种 公开 数据 库 的 ID 上 。 

colnames(probeset); 

# 只 保留 probeset 两 列 ， 探 针 ID Cprobesetid) 和 Entrez 数据 库 的 ID(Entrez.Gene)。 

Id_mapping <- probeset[,c("Probe.Set.ID", "Entrez.Gene")]; 

# 将 Entrez.Gene 一 列 信息 中 的 空白 字符 ("Ns+") ， 转 为 空 字符 С") 

Id_mapping$Entrez.Gene <- gsub("\\s+","", Id_mapping$Entrez.Gene); 

# Entrez.Gene 一 列 信息 不 为 空 的 数据 保留 下 来 。 

Id_mapping <- Id_mapping[Id_mapping$Entrez.Gene!="---", ]; 

# 提取 所 有 的 Entrez.Gene。 

]<-as.character(Id_mapping$Entrez.Gene); 

# 通过 查看 ， 发 现 有 些 探 针 ID 对 应 多 个 Entrez.Gene。 

head(l[!grepl("^\d+$", 1)]); 

# 先 将 以 "/W/" 分 割 的 多 个 Entrez.Gene 分 割 开 。 

entrez<-strsplit(as.character(Id_mapping$Entrez.Gene),"///"); 

# entrez 中 所 有 对 象 的 名 称 赋 值 为 探 针 Ір. 

names(entrez)<-as.character(Id_mapping$Probe.Set.ID); 

# 由 于 无 法 直接 将 对 象 entrez 从 list 格式 转换 成 matrix 格式 ， 先 将 list 内 的 元 素 转 成 以 
探 针 ID 及 Entrez.Gene 为 列 名 的 matrix， 然 后 再 合并 成 一 个 长 表 。 为 了 提高 效率 ， 要 用 到 
yapply 函数 并 行 运算 ， 下 面 先 定义 一 个 yapply 函数 。yapply 函数 的 作用 是 对 list 操作 时 可 以 
同时 调用 其 名 称 以 及 索引 值 ， 该 函数 表达 人 简洁、 功能 强大 ， 但 语法 复杂 ， 初 学 者 可 以 跳 过 
下 面 2 句 。 

yapply<-function(X,FUN, ...) { 

index <- seq(length.out=length(X)) 
namesX <- names(X) 
if(is.null(namesX)) namesX <- rep(NA,length(X)) 
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FUN <- match.fun(FUN) 
fnames <- names(formals(FUN)) 
if( ! "INDEX" %in% fnames ){ 
formals(FUN) <- append( formals(FUN), alist(INDEX=)) } 
if( ! "NAMES" %in% fnames ){ 
formals(FUN) <- append( formals(FUN), alist(NAMES=) ) } 
mapply(FUN,X,INDEX=index, NAMES=namesX, MoreArgs=list(...)) }; 

# 调用 上 面 定义 好 的 yapply 函数 ， 实 现 需要 的 功能 。 

entrez<-yapply(entrez, function(.ele){cbind(rep(NAMES, length(.ele)), gsub(" ","",.ele))} ); 

# 转换 成 两 列 的 matrix o 

entrez<-do.call(rbind, entrez); 

# 去 除 重 复 记 录 。 

entrez<-unique(entreZ); 

# 结果 输出 ， 最 后 得 到 一 个 ID 映射 文件 。 

write.table(entrez,file="primeviewHumanGeneExprs.txt",sep="\t",col.names=F,row.names=F, 
quote=F); 

最 后 ， 调 用 Bioconductor 的 AnnotationDbi 包 生 成 注释 文件 primeview.db。 例 4-11 就 是 
生成 注释 文件 的 代码 , 这 个 过 程 非常 慢 , 请 耐心 等 待 。 另 外 , 考虑 到 本 书 的 写作 基于 R2.15.1 
平台 , 例 4-11( 基 于 R2.14.1 以 前 版 本 ) 已 经 不 再 兼容 , 读者 运行 下 列 代码 会 遇 到 错误 提示 ， 
因此 不 必 运 行 例 4-11 的 代码 。 


例 4-11: 

# 安装 并 加 载 相 应 的 R 包 。 

source("http://bioconductor.org/biocLite.R"); 

biocLite("AnnotationDbi ); 

library(AnnotationDbi); 

# 查看 所 有 的 可 用 模版 。 

available.chipdbschemas(); 

# 在 当前 目录 下 新 建 叫做 primeview [у Ж ЭЕ 

dir.create("primeview"); 

# 根据 之 前 生成 的 primeviewHumanGeneExprs.txt， 生 成 一 个 SQLite 数据 库 ， 注 释 信 息 
来 源 自 human.db0， 模 版 采用 "HUMANCHIP_DB"。 这 一 步 耗 时 相当 长 。 这 步 结束 后 ， 可 以 
在 primeview 的 文件 夹 中 看 到 一 个 结果 文件 primeview.sqlite。 

populateDB("HUMANCHIP_DB",affy=F,prefix="primeview",fileName="primeviewHuman 
GeneExprs.txt", metaDataSrc=c("DBSCHEMA"="HUMANCHIP_DB","ORGANISM"="Homo 
sapiens","SPECIES"="Human","MANUFACTURER"="Affymetrix","CHIPNAME"="PrimeView 
Human Gene Expression Array", "MANUFACTURERURL"="http://www.affymetrix.com"), 
baseMapType="eg", outputDir="primeview"); 


# 生成 数据 库 种 子 ， 指 明生 成 模板 "HUMANCHIPDB"， 数 据 包 的 名 称 "primeview.db" 
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以 及 版 本 号 "1.0.0" 等 相关 信息 。 

seed<-new("AnnDbPkgSeed",Package="primeview.db",Version="1.0.0",PkgTemplate= 
"HUMANCHIP.DB", AnnObjPrefix="primeview"); 

# 在 primeview 的 文件 来， 生成 最 后 的 primeview.db 文件 。 

makeAnnDbPkg(seed, file.path("primeview", "ргітеуіем.ѕ9 ше"), dest_dir="primeview"); 

通过 例 4-10 和 4-11， 我 们 详细 了 解 了 生成 一 个 基因 芯片 注释 文件 的 一 般 过 程 
(PrimeView.na32.annot.csv->primeviewHumanGeneExprs.txt->primeview.sqlite->primeview.db )， 
这 个 过 程 不 仅 限 于 Affymetrix 公司 的 芯片 ， 适 合 于 任何 公司 的 任何 产品 。 其 实 ，Affymetrix 
公司 的 芯片 ， 有 其 特殊 性 ， 生 成 它 的 注释 文件 的 过 程 更 为 简单 和 方便 ，bioconductor 增加 了 
AnnotationForge 2 (ЖТ R2.15.2 及 以 上 平台 ), 文 持 一 步 生成 注释 文件 。 例 4-12 中 的 代码 
就 实现 了 上 述 功能 ， 它 相当 于 执行 了 例 4-10 与 4-11. 


例 4-12: 

# 安装 并 加 载 相 应 的 R 包 。 

source("http://bioconductor.org/biocLite.R"); 

biocLite("AnnotationDbi"); 

biocLite("AnnotationForge"); 

library(AnnotationDbi); 

library(AnnotationForge); 

# 查看 所 有 的 可 用 模板 。 

available.chipdbschemas(); 

# 在 当前 目录 下 新 建 叫做 primeviewdb 的 文件 夹 。 

dir.create( "primeviewdb ); 

# 直接 使 用 Affymetrix 芯片 注释 文件 ， 通 过 自动 处 理 ， 在 primeviewdb 文件 夹 中 生成 
sqlite 文件 。 

# 在 primeviewdb 的 文件 夹 ， 生 成 最 后 的 primeview.db 文件 。 

makeDBPackage("HUMANCHIP_DB",affy=TRUE,prefix="primeviewdb",fileName="Prime 
View.na32.annot.csv",baseMapType="eg" ,outputDir="primeviewdb",version="1.0.0",manufacturer 
="affymetrix", chipName= "Prime ViewHumanGeneExpressionArray", manufacturerUrl="http://www. 
affymetrix.com"); 

# 输出 本 章 的 会 话 信息 。 

sessionInfo(); 

R version 3.0.0 (2013-04-03) 

Platform: x86_64-apple-darwin10.8.0 (64-bit) 


locale: 
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8 


attached base packages: 
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[1] parallel stats graphics grDevices utils datasets methods base 


other attached packages: 

[1] AnnotationForge_1.2.0 org.Hs.eg.db_2.9.0 RSQLite_0.11.3 

[4] DBI 0.2-5 AnnotationDbi_1.22.2 Biobase 2.20.0 
[7] BiocGenerics_0.6.0 


loaded via a namespace (and not attached): 
[1] IRanges_1.18.0 stats4_3.0.0 tools_3.0.0 
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Bioconductor 最 初 就 是 设计 用 来 分 析 基 因 世 片 数 据 的 ， 因 此 芯片 分 析 反 映 了 
Bioconductor 的 设计 理念 和 编程 思想 。 尽 管 世 片 分 析 现 在 已 经 不 再 是 生物 信息 学 的 热点 问 
题 ， 本 书 还 是 把 这 部 分 内 容 作 为 重要 的 基础 篇 章 详 细 讲解 ， 希 望 读者 ， 特 别 是 初学 者 ， 通 
过 这 部 分 内 容 的 学 习 从 整体 上 掌握 Bioconductor 的 编程 思想 。 本 章 先 从 一 个 简单 的 例子 开 
始 ， 使 读者 可 以 初步 了 解 使 用 Bioconductor 完成 基因 芯片 预 处理 的 流程 ， 并 且 会 发 现 整个 
过 程 非常 简单 ， 接 着， 详细 讲解 芯片 数据 预 处 理 与 芯片 数据 分 析 等 内 容 ; 最 后 ， 用 几 个 实 
际 项 目 让 读者 更 深入 了 解 实 际 工作 中 会 遇 到 的 芯片 处 理 问 题 ， 以 及 如 何 用 学 到 的 知识 解决 
这 些 问 题 。 考 虑 到 Affymetrix 表达 谱 蕊 片 的 代表 性 ， 本 章 乃 至 本 书 的 几乎 所 有 例子 都 集中 
到 此 类 芯片 。 学 习 过 本 章 内容 ， 读 者 即 可 掌握 芯片 分 析 的 整体 框架 ， 自 行 学 习 其 他 厂商 或 
种 类 (例如 SNP 芯片 或 ChIP-chip 芯片 ) 的 芯片 处 理 方法 。 


5.1 快速 入 门 


例 5-1 从 数据 包 CLL 中 载 入 芯片 数据 ， 完 成 预 处 理 ， 最 后 获得 基因 【《 探 针 组 ) RARE 
阵 〈 见 2.3.2)。 注 意 ， 探 针 组 表达 和 矩阵 的 行 对 应 的 是 探 针 组 ， 而 不 是 基因 ， 基 因 和 探 针 组 的 
关系 见 5.2.1。 这 段 程 序 从 载 入 原始 数据 (CEL 文件 ) 开始 ,通过 预 处 理 得 到 基因 表达 矩阵， 
是 芯片 数据 处 理 的 一 个 必须 步 又。 


例 5-1: 

# 安装 并 加 载 所 需 民 包 。 
source('http://Bioconductor.org/biocLite.R'); 

biocLite(“CLL”) ; 

# CLL 包 会 自动 调用 айу 包 ，affy 包含 有 后 面 需要 的 rma 0 函数 。 
library (CLL); 

# 读 入 数据 (CLL 包 中 附带 的 示例 数据 集 )。 

data (CLLbatch) ; 

# 调用 RMA 算法 来 对 数据 预 处 理 ( 详 见 5.3.3)。 

CLLrma <- rma(CLLbatch) ; 

+ 读 取 预 处 理 后 所 有 样品 的 基因 (实际 上 是 探 针 组 〉 表达 值 。 
е <- exprs(CLLrma); 

# 查看 部 分 数据 。 

е[1:5, 1:5] 
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## CLL10.CEL CLLI11.CEL CLL12.CEL CLL13.CEL CLL14.CEL 
## 100 g_at 7.496 7.945 7.861 7.990 7.890 
## 1000 аїѓ 7.251 8.299 8.474 8.131 8.051 
## 1001 аг 4.457 4.518 4.358 4.651 4.474 
## 1002 fat 3.985 3.982 4.065 4.132 4.065 
## 1003 5 at 6.437 6.201 6.412 6.314 6.105 


例 5-1 中 用 到 的 慢性 淋巴 细胞 白血病 〈Chronic lymphocytic leukemia, CLL) 数据 集 ， 
采用 了 Affymetrix 公司 的 HG_U95Av2 表达 谱 芯 片 〈 含 有 12625 个 探 针 组 )， 共 测量 了 24 
个 样品 (“CLL10.CEL”、“CLL11.CEL”、“CLL12.CEL”“CLL13.CEL”“CLL14.CEL” 等 )， 
每 个 样品 来 自 一 个 癌症 病人 ， 所 有 病人 根据 健康 状态 分 为 两 组 ， 稳定 期 (Stable) 组 和 进展 
期 (Progressive) 也 称 为 恶化 期 组 ( 见 5.3.1)。 因 此 , 最 后 的 结果 得 到 的 对 象 e。 是 一 个 12625 
17. 24 列 的 基因 表达 和 矩阵 。 例 5-1 采用 的 实验 设计 方式 : 两 组 之 间 是 对 照 试验 (Control test), 
每 组 内 部 是 平行 试验 (Parallel test)。 对 照 试验 ， 简 单 来 说 就 是 为 了 阐明 某 种 单一 因素 的 效 
应 或 影响 ， 在 保持 其 他 因素 不 变 的 前 提 下 ， 测 试 一 定数 量 的 实验 组 样本 和 对 照 组 样本 ， 并 
对 结果 进行 比较 。 平 行 试验 ， 简 单 来 说 就 是 对 同样 的 一 组 样本 取 两 个 以 上 相同 的 样品 ， 以 
完全 一 致 的 条 件 进 行 试验 ， 测 试 结果 的 稳定 性 。 

从 例 5-1 可 以 看 到 ， 用 Bioconductor 编程 ， 仅 用 不 超过 10 行 代码 即 完成 了 整个 芯片 预 
处 理 过 程 ， 甚 至 比 常用 的 分 析 软 件 Affymetrix Expression Console Software 还 要 简单 。 而 且 
Bioconductor 提供 了 多 种 参数 供用 户 设 定 ， 可 以 完成 更 为 复杂 的 分 析 及 批量 处 理 功能 ， 是 
分 析 软 件 所 不 具备 的 。 


5.2 基因 芯片 基础 知识 


5.21 控 针 组 


一 张 基因 芯片 (以 Affymetrix 表达 谱 芯 片 为 例 ) 可 以 包含 上 百 万 的 探 针 通常 由 25 个 
碱 基 组 成 )， 它 们 被 整齐 有 序 地 印刷 在 蕊 片上。 一 组 探 针 或 称 探 针 组 (Probe set)， 来 自 于 一 
个 基因 ， 通常 由 20 对 或 者 11 对 探 针 组 成 ， 每 一 对 探 针 都 由 匹配 探 针 《Perfect match, РМ) 
和 错 配 探 针 (Mismatch, MM) 组 成 ， 称 为 探 针对 (Probe pair) ( 5-1). ММ 与 PM 的 
序列 只 有 正中 央 的 那个 碱 基 不 同 ， 其 余 的 都 一 致 。 但 是 ， 在 一 些 高 密度 芯片 中 ， 例 如 外 显 
Fih (Exon array)， 每 个 探 针 组 只 有 4 个 PM 探 针 ， 没 有 MM 探 针 。 

探 针 序列 的 来 源 叫 做 参考 序列 〈 图 5-1)， 通 常 来 自 于 公开 的 核酸 数据 库 〈 例 如 NCBI 
GenBank 或 RefSeq)。 对 于 不 同 的 芯片 类 型 ， 探 针 组 在 参考 序列 中 的 分 布 不 同 〈 见 图 $-2): 
3 表达 谱 芯片 的 探 针 组 排 布 在 参考 序列 3° 末端 附近 的 一 至 两 个 外 显 子 上 ， 外 显 子 芯片 中 ， 
每 个 长 度 大 于 25 个 碱 基 的 外 显 子 都 有 针对 它 的 探 针 组 ， 铺 瓦 芯片 (Tiling array) 中， 探 
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针 组 覆盖 了 几乎 所 有 的 外 显 子 和 内 含 子 。 


зж зж зж ж ж ж з з= ж ж 
参考 序列 [же] 


,+ . TGTGATGGTGGGAATTGGGTCAGAAGGACTCCTATGTGGGTGACGAGGCC... 


AATTGGGTCAGAAGGACTCCTATGTGGGTG Perfect Match oligo 
AATTGGGTCAGAARQGACTCCTATGTGGGTG Mismatch oligo 


(25-гпег) 
PM 探 针 格 
荧光 成 橡 


5-1 Affymetrix 芯片 中 的 探 针 组 


了 
参考 序列 intron 


з 表达 谱 芯 片 本 
ШИИ 
外 显 子 芯片 щн ЖШ режа = 0) 


IIIT CIID LIII ТТІ 
я NE 


图 5-2 不 同类 型 芯片 中 的 探 针 分 布 


这 里 需要 强调 的 是 ， 蔚 片 数据 领 域 提 到 的 基因 表达 和 矩阵 〈 见 例 5-1) 往往 是 以 探 针 组 而 
不 是 以 基因 为 单位 的 ， 即 每 行 都 对 应 一 个 探 针 组 的 表达 量 。 后 面 将 要 讲 到 的 差异 表达 分 析 
也 是 找到 显著 性 差异 表达 的 探 针 组 ， 然 后 通过 ID 映射 才 对 应 到 探 针 组 代表 的 基因 ， 探 针 组 
与 基因 的 关系 往往 是 多 个 探 针 组 对 应 一 个 基因 。 但 在 实际 应 用 中 ， 经 常 不 太 注 意 区 分 ， 控 
针 组 有 时 也 会 被 叫做 基因 。 


5.22 主要 的 大 片 文件 格式 
从 芯片 实验 结果 获取 数据 包括 两 个 步骤 : 第 一 步 由 扫描 设备 (如 Affymetrix Scanner 


3000) 对 芯片 进行 扫描 ， 得 到 荧光 信号 图 像 文 件 (DAT 文件 ); 第 二 步 就 是 由 系统 自 带 的 图 
像 处 理 软 件 (如 Affymetrix 公司 的 GeneChip operating software，GCOS)， 经 过 网 格 定位 
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(Griding)、 杂 交点 范围 确定 CSpot identifying) 和 背景 过 滤 (Noise filtering) 等 图 像 识 
别 过 程 ， 从 芯片 图 像 中 提取 数据 ， 得 到 CEL 文件 。 

Affymetrix 芯片 原始 数据 最 常用 格式 为 CEL 格式 ， 也 是 芯片 数据 预 处 理 和 分 析 的 出 发 
点 。 下 面 根据 一 个 具体 的 CEL 文件 来 介绍 其 主要 内 容 。 该 数据 来 自 肺 腺 癌 〈Lung 
adenocarcinoma) 数据 集 (NCBI GEO 数据 库 编号 为 GSE5900) 的 一 个 癌症 样品 (NCBI СЕО 
数据 库 编 号 为 GSM254625)， 芯 片 型 号 是 Affymetrix HG-U133A。CEL 文件 的 主要 内 容 就 是 
每 个 “cell” 的 灰 度 信息 ,“cell” 是 整个 芯片 图 像 划分 后 得 到 的 小 网 格 ， 每 个 小 网 格 中 的 图 
像 被 看 做 来 自 一 个 探 针 。 从 图 5-3A 中 可 以 看 到 ， 自 “CellHeader” 开 始 ， 每 行 数 据 对 应 芯 
片上 的 一 个 “cell” 位 点 ， 包 含 5 列 信息 ， 依 次 为 X 坐标 、Y 坐标 、 灰 度 的 平均 值 、 灰 度 的 
标准 差 以 及 用 了 多 少 个 像素 来 求 这 个 平均 值 。 
A. B. 


Probe Set Маке Probe X Probe Y Probe Interrogation Position Probe Sequence Target S:randedness 
[HEADER] 200622 ај 291 621 o ТСТССТЗБОЗТСАТССТАБСАСААА Antisense 


Cols=712 # 该 芯片 共有 712 列 ОЙ ле 695 448 о CATGACTGAGT Antisense 
2 该 芯片 共有 712 行 200688 а 593 239 о СТССССІТСССАСАТСТОССССАСС AntisSe: 

TotalXm712 ”二 该 芯片 共有 7342 列 200688 а 499 595 о ТССТОТССТАТАТ©ТВАТССТІІСА АлсіЅепе 

Totaly=712 Ф712 200688 ас 409 65 о CCGTGGGGT AntiSense 

orfsetX=0 ”此 参数 未 使 局 200688; 48 8 о ССССААСССАТСААГ! АлсіЅепзе 

Offsecy=0 HSZ 200688 а 372 343 0 бААТСААС@ССТТ! BntiSense 
GridcornerUL=165 125 $ 左 上 角 网 格 的 xY 坐 标 《 单 位 是 像素 值 ) 200628 а о 283 о GSCTTGGGGACGGGTGAGEA AntiSens 

GridCoxnerUR=5288 146 # 右 上 角 网 格 的 xY 坐 标 〔 单 位 是 像 到 值 ) рш се 15 577 0 TGAGGASITAGCCTGGAACATTOCA S 

GridCcornerLR=5271 5286# 右 下 角 网 格 的 xy 坐标 〈 单 位 是 像素 值 7 кари 316 З 0 ATTOCASCGTGOGCATTATTOTCCT Antisense 

в Gora и» мв 5265 тя са (@Ж(@) бое А 76 535 ° GGAATCSAGITTTGICGATCCAAIT Antisense 
із-іпуег 参数 未 使 用 

е I: бен ә OARRA 

зм # 此 参数 未 使 用 

ра z={[5..65486) #DAT 文 件 的 头 部 信息 

Algorithm=Percentile + ын 文件 的 算法 

AlgorithmParameters=Percentil # 用 于 产生 该 cEL 文 件 的 算法 参数 

(INTENSITY] # 下 夯 每 个 cel1 的 灰 度 什 

NumberCells=506944 л ноосон оаа 

ellHeader=X Ү STDY МРІХЕІЅ 


图 5-3 ”CEL 和 Probe 文 件 部 分 内 容 


CEL 文件 只 提供 了 每 个 探 针 的 灰 度 信息 ， 还 需要 基因 芯片 探 针 排 布 的 信息 〈 即 哪个 探 
针 来 自 于 哪个 探 针 组 )， 才 可 以 得 到 芯片 上 每 个 探 针 组 对 应 的 表达 数据 〈 见 例 5-1)， 这 就 需 
要 CDF 文件 。 另 外 一 个 重要 的 文件 是 Probe 文件 ， 它 提供 了 探 针 的 序列 信息 。Affymetrix 
公司 为 每 种 型 号 的 芯片 都 提供 了 对 应 的 CDF 文件 和 Probe 文件 。CDF 文件 中 的 对 应 关系 
用 户 可 以 自行 更 改 , 例如 ,为 了 应 对 多 个 探 针 组 的 ID 对 应 到 同一 个 基因 ID 的 现象 ， 有 些 
研究 机 构 〈http://masker.nci.nih.gov/ev/) 就 把 对 应 到 同一 个 基因 的 多 个 探 针 组 合并 为 二 个 探 
针 组 ， 并 提供 修改 后 的 CDF 和 Probe 文件 。 图 5-3B 是 Affymetrix HG-U133A 芯片 的 Probe 
文件 的 部 分 内 容 ， 它 只 包括 了 一 个 探 针 组 (名 称 是 “200688_at”) 的 所 有 探 针 ， 共 11 条 序 
列 ,文件 中 第 2 和 3 列 是 对 应 探 针 所 在 的 了 和 YY Аек: 第 4 列 是 序列 的 第 13 个 碱 基 〈 中 
D) 位 置 对 齐 到 一 致 性 序列 的 相对 位 置 ; 第 5 列 是 对 应 探 针 的 序列 ;最 后 是 样品 与 探 针 杂 
交 的 方向 。 | 

除了 DAT 文件 、CEL 文件 和 СОЕ 文件 ， 常 见 的 芯片 数据 文件 还 包括 EXP 文件 、CHP 
文件 、TXT 文件 和 ЕРТ 文件 。 这 些 文件 在 芯片 数据 处 理 中 的 位 置 以 及 相互 关系 见 图 5-4。 
图 5-4 中 ,“MAS5” 标 准 化 方法 请 参见 5.3.4，TXT 文件 特 指 包括 基因 表达 矩阵 〈 见 例 5-1) 
的 TXT 文件 ，CHP 文件 与 TXT 文件 内 容 基 本 相同 。 
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СОЕ 文件 | |снр 文件 


Ал | ->|DAr 文 件 -- > 
实验 | ”扫描 ccosa ELX 下 Fas5 或 六 TXT 文件 


GCOS 处 理 
EXP 文件 RPT 文 件 


图 5-4 常见 芯片 数据 文件 格式 


5.3 基因 人 必 片 数据 预 处 理 


基因 芯片 数据 预 处 理 的 目的 是 将 探 针 水 平 的 数据 〈 杂 交 信 和 号 ) 转换 成 基因 表达 数据 。 

主要 的 数据 结构 有 AffyBatch 类 和 ExpressionSet 类 ， 前 者 用 于 存储 探 针 水 平 的 数据 (相当 
于 CEL 文件 的 内 容 )， 而 后 者 用 于 存储 表达 水 平 的 数据 (相当 于 基因 表达 和 矩阵 的 内 容 )。 预 
处 理 通 过 质量 控制 ， 剔 除 不 合格 的 芯片 〈 数 据 )， 只 保留 合格 的 进入 下 一 步 处 理 。 然 后 通过 
标准 化 ， 将 所 有 芯片 数据 中 的 基因 表达 值 变换 到 一 个 可 以 比较 的 水 平 ， 用 于 后 续 分 析 。 为 
了 突出 主要 问题 而 便于 读者 理解 , 本 节 中 的 标准 化 算法 或 方法 举例 使 用 了 全 部 样品 (数据 )， 
对 质量 控制 中 不 合格 的 样品 没有 进行 婚 除 。 男 外 ， 这 部 分 R 语言 程序 实现 的 功能 ， 读 者 可 
以 使 用 Affymetrix 公司 的 专用 软件 Expression Console! 实现 ， 并 对 比 结果 。 


5.31 数据 输入 


在 例 5-1 中 ， 芯 片 数 据 的 输入 是 从 数据 包 中 得 到 的 ， 但 是 实际 应 用 中 ， 更 常见 的 情况 
是 从 CEL 文件 中 获得 数据 (这 部 分 内 容 详 见 例 5-18). CEL 文件 是 芯片 数据 分 析 的 出 发 点 ， 
因此 大 部 分 芯片 研究 都 会 提供 其 数据 对 应 的 CEL 文件 , 例 5-1 中 , 数据 包 CLL 中 得 到 的 芯 
片 数据 基本 上 等 同 于 CEL 文件 。 无 论 数 据 包 还 是 文件 输入 ， 读 入 的 数据 会 存 入 一 个 
“AffyBatch” 类 型 的 对 象 中 〈 见 例 5-2)， 读 者 可 以 通过 执行 help(“AffyBatch”) 获 得 更 详细 
的 介绍 。 


例 5-2: 

+ 加 载 所 需 К 包 , 前 面 已 安装 。 

library (CLL); 

# 读 入 数据 (CLL 包 中 附带 的 示例 数据 集 )。 
data (CLLbatch) ; 

# 查看 数据 类 型 ， 结 果 不 再 显示 。 

data.class (CLLbatch) ; 

# 读 入 所 有 样品 的 状态 信息 。 
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data(disease); 
# 查看 所 有 样品 的 状态 信息 。 
disease; 


# 查看 “AffyBatch” 的 详细 介绍 。 

help (AffyBatch) ; 

在 Biobase 软件 包 中 ，AffyBatch 类 是 从 一 个 更 基础 的 类 eSet 类 衍生 来 的 。eSet 类 是 
如 此 的 基础 ， 以 至 于 它 被 写成 了 一 个 虚 类 ， 从 而 衍生 出 了 许多 非常 重要 的 类 ， 包 括 
ExpressionSet 类 、SnpSet 类 以 及 AffyBatch 类 等 。eSet 是 Bioconductor 为 基因 表达 数据 
格式 所 定制 的 标准 ， 因 此 如 果 想 了 解 芯片 数据 结构 必须 要 熟悉 eSet 及 其 衍生 类 。 这 里 仅 简 
要 介绍 一 下 AffyBatch 类 。 

。 头 文件 : 用 于 描述 实验 样本 、 平 台 等 相关 信息 ， 其 中 包括 phenoData、featureData、 
protocolData 以 及 annotation 等 几 个 类 。 从 图 5-5A 中 可 见 ， 数 据 “CLLbatch” 中 共有 24 
个 样品 ， 分 别 是 “CLL10.CEL”“CLL11.CEL” 等 。 


A. B. 
> phenoData (СІІратсп) > exprs масгіх<-азвзаураса (СІ1Батсп) { 17:5 
Ап object of class "АппосатедратсаЕгате" > exprs шасгїх[1:5,1:5] 
sampleNames: CLL10.CEL CLL11.CEL ... CLL9.CEL (24 CLL10.CEL CLL11.CEL CLL12.CEL CLL13.CEL CLL14.CEL 
total) 1 183.0 113.0 119.0 130.0 133.0 
varLabels: sample 2 11524.8 6879.8 7891.3 8627.5 8205.3 
varMetadata: labelDescription 3 301.0 146.0 133.0 160.0 153,0 
> featureData (СІ1Ьатсі) 4 11317.0 6747.0 7916.0 8616.0 7865.0 
Ап object of class "АппотасейпасаЕгаше"; none 5 115.0 82.0 78.8 101.0 65.3 
> protocolData(CLLbatch) > exprs (CLLbatchk){1:5,1:5] 
An object of class "AnnotatedDataFrame": none CLL10.CEL CLL11.CEL CLL12.CEL CLL13.CEL СІ114.СЕІ 
> annotation (CLLbatch) 1 183.0 113.0 119.0 130.0 133.0 
{1] "hgu95av2"” 2 11524.86 6879.8 7891.3 8627.5 8205.3 
3 301.0 146.0 133.0 160.0 153.0 
4 11317.0 6747.0 7916.0 8616.0 7865.0 
5 115.0 82.0 78.8 101.0 65.3 


图 5-5 ”AffyBatch 数 据 结构 


。assayData: 这 是 AffyBatch 类 必 不 可 少 的 ， 它 的 第 一 个 元 素 是 矩阵 类 型 ， 用 于 保存 基 
因 表达 矩阵。 该 矩阵 的 行 对 应 不 同 的 探 针 组 (Probe sets)， 用 一 个 无 重复 的 索引 值 表示 ; 列 
对 应 不 同 的 样品 。 当 使 用 exprs 方法 时 ， 调 取 的 就 是 这 个 基因 表达 和 矩阵 (图 5-5B)。 

“experimentData: 一 个 MIAME 类 型 的 数据 ， 设 计 这 个 MIAME 类 的 目的 就 是 用 于 保 
存 MIAME 原则 (Minimum Information About a Microarray Experiment) 建议 的 注释 信息 。 
MIAME 原则 是 一 组 指导 方针 ， 它 建议 了 一 组 标准 来 记录 与 基因 芯片 实验 设计 相关 的 资料 ， 
比如 实验 室 名 或 发 表 的 文章 等 等 ， 这 里 不 再 具体 介绍 。 

从 例 5-2 可 以 看 到 , 执行 phenoData (CLLbatch) 并 没有 看 到 每 个 样品 对 应 的 表 型 信息 。 
因为 CLL 包 采 用 了 一 个 数据 框 类 型 的 变量 disease 来 保存 每 个 样品 的 表 型 ( 即 疾 病 种 类 或 者 
状态 ) 信息 。 因 此 ， 通 过 查看 变量 disease 的 内 容 〈 未 显示 )， 可 以 看 到 有 9 个 病人 的 癌症 状 
态 处 于 稳定 期 (“stable”)，14 个 病人 处 于 恶化 期 (“progress”) 以 及 一 个 病人 的 状态 未 知 
(“NA”)。 但 是 ， 将 表 型 信息 存 入 数据 结构 CLLbatch 中 是 更 为 规范 的 做 法 。 
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5.3.2 质量 控制 


质量 控制 对 于 后 续 的 分 析 至 关 重 要 ， 原 始 图 像 (РАТ 文件 ) 级 别 的 质量 控制 一 般 用 各 
芯片 公司 自 带 的 软件 〈 如 Affymetrix 公司 的 GCOS) 完成 。 本 节 中 ， 质 量 控制 主要 集中 在 
CEL 文件 级 别 的 处 理 ， 从 最 简单 的 直观 观察 ， 到 平均 值 方法 ， 再 到 比较 高 级 的 数据 拟 合 方 
法 。 这 三 个 层次 的 质量 控制 功能 分 别 由 image 函数 、simpleaffy 包 和 affyPLM 包 实 现 。 

直观 地 查看 一 下 芯片 上 所 有 位 点 的 灰 度 图 像 ， 例 5-3 要 和 例 5-2 一 起 运行 。 


例 5-3: 
# 查看 第 一 张 世 片 的 灰 度 图 像 。 
image(CLLbatch[, 1]); 


这 名 代码 表示 选取 CLLbatch 中 的 第 一 个 基因 芯片 〈 即 “CLL10.CEL”) 的 数据 ， 然 
后 调用 image 函数 根据 CEL 文件 中 的 灰 度 信息 画图 (图 5-6). Affymetrix 芯片 在 印刷 时 会 
在 四 个 角 印 制 特 殊 的 花纹 ， 并 且 在 左上 和 角 印 制 芯片 的 名 称 ， 花 纹 与 芯片 名 称 可 以 帮助 我 们 
借助 这 个 图 像 分 辨 率 来 了 解 芯片 数据 是 否 可 靠 。 如 果 无 法 分 辨 四 角 花 纹 或 芯片 名 称 ， 很 可 
能 数据 有 问题 。 根 据 图 像 信 息 ， 还 可 以 对 芯片 的 信号 强度 产生 一 个 总 体 认 识 : 如 果 图 像 特 
别 黑 ， 说 明 信 和 号 强度 低 ， 如 果 图 像 特别 亮 ， 说 明 信 和 号 强度 很 有 可 能 过 饱和 。 


= 

м 
ба 
= ma” 


图 5-6 根据 CEL 文 件 信息 构建 的 灰 度 图 像 
比 直观 评价 方法 更 好 的 简单 方法 是 基于 各 种 平均 值 的 方法 ， 这 类 方法 的 一 个 共同 特点 
就 是 假设 一 组 实验 中 的 每 个 芯片 数据 对 于 某 个 平均 值 指标 都 相差 不 大 。Affymetrix 公司 在 
指导 手册 中 详细 描述 了 这 些 标准 3!， 它 们 有 : 
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。 尺 度 因 子 (Scaling factor): 每 一 块 芯片 上 所 有 探 针 的 平均 值 被 用 于 决定 尺度 因子 。 
我 们 假设 每 个 芯片 上 所 有 基因 定量 后 的 线性 坐标 表达 值 为 介 于 0 到 200 之 间 的 数字 ， 平 均 
值 为 100。 如 果 有 两 块 芯片 需要 比较 ， 第 一 块 芯片 的 平均 值 为 50， 第 二 块 芯片 的 平均 值 为 
200。 那 么 它们 的 尺度 因子 就 分 别 是 : 2 (50/100) 和 0.5 (200/100). WE Affymetrix 公司 
的 标准 ， 用 于 比较 的 芯片 之 间 的 尺度 因子 的 比例 必须 小 于 3， 在 这 个 假设 下 ，2/0.5=4， 大 于 
3 了 ， 因 此 这 两 块 蕊 片 不 能 用 于 比较 ， 其 中 至 少 有 一 块 出 了 问题 。 

* 检测 值 (Detection call) 和 检 出 率 (Percent present): 一 组 探 针 能 否 被 检测 到 ， 用 检 
测 值 有 (Present, MEK P) E (Absent, EK А) 和 不 确定 (Marginal present， 简 称 М) 


РМ-ММ 

РМ+ММ 

区 分 度 (Discrimination score)， 然 后 减 去 一 个 用 户 预 定义 Tau 值 后 做 Wilcoxon 秩 和 检验 
(Wilcoxon’s signed rank)， 再 求 得 一 个 P 值 (P-value)。 根 据 这 个 P 值 落 入 的 值 域 ， 来 确定 
检测 值 是 P、A 还 是 M (图 5-7)。 图 5-7 中 ,检测 范围 的 上 下 边界 (Qs Жо) 选用 了 默认 
值 0.04 和 0.06。 检 出 率 ， 是 用 所 有 检测 值 为 P 的 探 针 组 数量 除 以 局 片 所 有 探 针 组 数量 得 
到 的 百分比 。 如 果 检 出 率 很 低 ， 表 示 大 部 分 的 基因 都 未 被 检测 到 ， 很 难说 明 是 该 芯片 实验 
有 问题 ， 还 是 这 个 样品 的 大 多 数 基因 本 身 就 很 难 检测 到 ， 原 因 或 是 表达 量 极 低 或 是 其 他 。 

因此 ， 需 要 看 多 个 样品 之 间 的 相对 差别 ， 如 果 有 的 样品 的 检 出 率 与 其 他 的 有 比较 大 的 差别 ， 
那 很 可 能 该 样品 出 现 了 问题 。 


来 表示 。 那 么 每 组 探 针 的 检测 值 如 何 确定 呢 ? 首先 使 用 公式 R= 求 得 每 个 探 针 的 


Absent 


图 5-7 ”根据 P 值 确定 检测 值 


。 平 均 背 景 噪声 〈Average background): 对 于 每 一 块 芯片 ， 根 据 所 有 的 MM 值 作出 统 
计 ， 可 以 得 到 背景 噪音 的 平均 值 、 最 小 值 和 最 大 值 。 往 往 较 高 的 平均 背 噪 都 伴随 着 较 低 的 
检 出 率 ， 因 此 这 两 个 指标 可 以 结合 使 用 。 

。 标 准 内 参 〈Internal control genes): mRNA 是 按 5° 端 至 3’ 端的 顺序 来 降解 的 ， 
芯片 探 针 组 也 是 根据 这 个 顺序 来 设计 的 ， 因 此 探 针 组 的 测量 结果 可 以 体现 这 一 趋势 。 因 
为 大 部 分 的 细胞 都 有 B-actin 和 GAPDH 基因 , 所 以 Affymetrix 在 大 部 分 的 芯片 里 都 将 
它们 设置 为 一 组 观察 RNA 降解 程度 的 内 参 基 因 。 根据 这 两 个 基因 设计 的 探 针 组 很 好 地 
涵盖 了 它们 З’ 至 和 端的 每 一 个 区 段 。 通 过 比较 它们 3? 端 相对 于 中 间或 者 5’ 端 的 信 
号 强度 ， 可 以 很 好 地 指示 出 实验 质量 。Affymetrix 建议 这 个 比值 对 于 B-actin 不 大 于 3, 
对 于 GAPDH 不 大 于 1.25， 即 可 说 明 这 个 芯片 的 质量 可 以 接受 。 如 果 这 个 比值 很 高 ， 表 
明 不 完整 的 B-actin 或 者 GAPDH 的 存在 ， 可 能 源 于 体外 转录 不 好 或 者 降解 非常 严重 。 
如 果 使 用 的 是 Affymetrix 的 小 样本 实验 流程 (Small sample protocol) 而 不 是 常用 的 标准 
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流程 (Standard protocol)， 建 议 使 用 3’ 端 相对 于 中 间 的 比值 。 原 因 是 小 样本 流程 有 更 多 
扩 增 次 数 ， 有 可 能 产生 更 多 较 短 的 转录 序列 ， 不 可 避免 地 带 来 3 端的 偏 倚 。 为 了 验证 杂 
交 的 质量 ，Affymetrix ALMA T AXAR A (Spike-in probesets): 一 类 是 
poly-A 内 参 ， 包括 lys, phe, thr 和 dap， 它 们 从 实验 的 第 一 步 开 始 加 入 ; 另 一 类 是 杂 
交 内 参 ， 包 括 BioB、BioC、BioD 和 CreX， 它 们 自 样品 与 芯片 混合 前 最 后 一 步 加 入 。 
ploy-A 内 参 用 于 检测 标记 过 程 是 否 有 问题 , 杂交 内 参 主要 用 于 指示 杂交 效率 ,poly-A 内 
参 (dys, phe, thr 和 дар) 的 稀释 浓度 分 别 为 : 1:100 000. 1:50 000. 1:25 000 和 1:7 500, 
因此 ， 期 望 检测 到 的 信号 强度 为 lys < phe < thr < дар; 杂交 内 参 也 按照 同 理 稀释 ， 期 望 
检测 到 的 信号 强度 为 BioB < BioC < BioD < CreX。 如 果 BioB 不 能 被 检测 为 P， 说 明 该 
芯片 的 杂交 没有 达标 ， 这 很 有 可 能 是 芯片 本 身 的 问题 。 

根据 上 述 的 这 些 标准 ， 可 以 使 用 Bioconductor 的 simpleaffy 包 对 Affymetrix 芯片 数 
据 进 行 质量 评估 〈( 见 例 5-4)， 最 后 得 到 质量 控制 总 览 图 (图 5-8)。 


例 5-4: 

# 安装 并 加 载 所 需 R 包 。 
source('http://Bioconductor.org/biocLite.R'); 
biocLite("simpleaffy"); 
library(simpleaffy); 

library (CLL); 

data (CLLbatch) ; 

# 获取 质量 分 析 报 告 。 
Data.qc <- qe(CLLbatch); 
# 图 型 化 显示 报告 。 
plot(Data.qc); 


图 5-8 是 CLL 数据 集中 全 部 24 个 芯片 数据 的 质量 控制 总 览 图 .图 5-8 中 从 左 至 右 ， 
第 1 列 是 所 有 样品 的 名 称 ; 第 2 列 是 两 个 数字 (对 应 每 个 样品 )， 上 面 的 是 以 百分比 形 
式 出 现 的 检 出 率 ， 下 面 的 数字 表明 平均 背景 噪音 ; 第 3 Ж] (“ОС Stats”) 最 下 面 的 横 轴 
是 尺度 因子 等 指标 对 应 的 坐标 ， 取 值 范 围 从 -3 到 3， 用 浅 蓝 色 虚 线 作 为 边界 。 第 3 列 用 
到 了 三 项 指标 : 尺度 因子 、GAPDH 3°/5° ШИЯ асіп 3”/5” 比 值 ( 记 做 gapdh3/gapdh5 
和 actin3/actin5 )， 分 别 用 实心 圆 、 空 心 圆 和 三 角 标 志 表 示 出 来 。 另 外 ， 如 果 第 三 列 中 
出 现 红 色 的 “bioB ”字样 ， 说 明 该 样品 中 未 能 检测 到 BioB 。 

简单 地 讲 ， 所 有 指标 出 现 蓝 色 表示 正常 ， 红 色 表 示 可 能 存在 质量 问题 。 但 是 根据 实 
际 情况 不 同 ， 还 要 进一步 分 析 。 一 般 来 讲 ， 如 果 有 一 个 芯片 各 项 指标 都 不 太 正 常 ， 尤 其 
是 BioB -无 法 检测 到 ， 建 议 判 定 为 该 芯片 实验 失败 。 如 图 5-8 中 的 样品 “CLL15.CEL”， 
这 个 数据 的 检 出 率 〈38.89%) 明显 低 于 其 他 样品 ，actin3/actin5 远大 于 3， 而 且 没 有 检测 
到 BioB， 因 此 可 以 判定 此 数据 无 效 。 如 果 多 个 芯片 都 出 现 了 相同 的 问题 ， 原 因 则 可 能 是 
多 方面 的 : 如 左 侧 第 2 列 24 个 芯片 的 检 出 率 和 背景 噪声 都 很 高 ， 原 因 是 阔 值 设 定 过 高 ， 
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如 果 降 低 阔 值 ， 大 部 分 就 会 变 蓝 ; 再 如 ， 全 部 芯片 都 不 能 检测 到 BoB, ATERRAR 
针 所 针对 的 DNA 溶液 加 入 比例 不 对 。 


Se ne 
бишесе. 7774” | 
GLL8.CEL 128% 
сытсві 4683% 
CULL6.CEL 28.65% 
CLL5.CEL 2! а" % 
CLL4.CEL 45%. 
cacet 3521" 
CLL2.CEL 378% 
CLL24.CEL Aog% 
CLL23.0EL 2925% 
GLL22.CEE 62500 
сіая се 25-38% 
сизо сві 38937% 
сылсеі 250% 
сіитә.сЕ 25%; 
силвсе 2258% 5 
сито, {Т О" 4 
CLL16.CEL Д023° 
CLLI15.CEL 2858" & 
CLL14.CEL & 
CLL13.CEL $ 
cuiaceL 08% 
CLL11.CEL a aw 
сыласеі 238% 


5 -2 -1 
图 5-8 ”质量 控制 总 览 图 ( 见 彩 图 ) 


基于 平均 值 假设 的 评价 指标 都 有 一 个 默认 的 假设 ， 那 就 是 对 于 每 一 块 芯片 ， 质 量 是 
均匀 的 ， 不 会 随 着 位 置 不 同 发 生 较 大 的 变化 。 但 事实 上 真有 这 么 简单 么 ? 如 果 关 注 芯片 
的 每 个 小 格 〈Grid)， 就 会 发 现 格 与 格 之 间 的 质量 也 是 有 差异 的 ， 这 可 能 由 于 芯片 印刷 的 
问题 ， 也 可 能 是 杂交 过 程 出 现 的 问题 ， 这 里 不 再 详 述 。 那 么 如 何 才 能 得 到 比较 可 靠 的 质 
量 评估 昵 ?这 需要 设计 多 种 能 反映 已 片 数据 全 貌 的 指标 综合 分 析 从 而 得 出 最 终 的 结论 。 
这 些 指标 要 在 对 原始 数据 拟 合 (回归 ) 的 基础 上 计算 得 到 ,然后 以 图 的 形式 显示 ,包括 : 
NE (Weights) & 残 差 〈Residuals) 图 、 相 对 对 数 表达 (Relative log expression, RLE) 
箱 线 图 、 相 对 标准 差 (Normalized unscaled standard errors, NUSE) 箱 线 图 、RNA 降解 
H. RKT (Cluster analysis) 图 、 主 成 分 分 析 (Principal component analysis, РСА) 
图 、 信 和 号 强度 分 布 图 ( 见 $.3.3) 及 МА 图 (А 5.3.3) 等 。 以 上 功能 由 Bioconductor 中 
的 affyPLM 包 实 现 。 


例 5-5: 

# 安装 并 加 载 所 需 及 包 。 
source('http://Bioconductor.org/biocLite.R'); 
biocLite("affyPLM ") ; 

library (affyPLM); 
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library (CLL); 

# 读 入 数据 (CLL 包 中 附带 的 示例 数据 集 )。 

data (CLLbatch); 

# 对 数据 集 做 回归 计算 ， 结 果 是 一 个 “PLMset” 类 型 的 对 象 。 
Pset<- ftPLM(CLLbatch); 

# 画 第 一 个 芯片 数据 的 原始 图 。 

image(CLLbatch[, 1]); 

# 根据 计算 结果 ， 画 权重 图 。 

image(Pset type = "weights", which = 1, main = "Ұеірһѕ"); 
# 根据 计算 结果 ， 画 残 差 图 。 

image(Pset type = "теѕійѕ", which = 1, main = "Residuals"); 
# 根据 计算 结果 ， 画 残 差 符号 图 。 


іпаве(Рѕеї, type = "sign.resids", which = 1, main = "Residuals.sign"); 


首先 介绍 权重 残 差 图 。affyPLM 软件 包 在 探 针 水 平 〈Probe-level-model) 拟 合 时 所 使 用 
的 回归 方法 是 最 小 二 乘法 。 普 通 最 小 二 乘法 假设 误差 项 的 方差 是 不 变 的 ; 然而 ， 在 忆 片 的 
应 用 计算 过 程 中 ， 这 一 假设 并 不 成 立 ， 所 以 就 引入 了 加 权 最 小 二 乘法 来 进行 回归 。 这 个 加 
权 的 权重 就 体现 着 方差 的 变化 。 因 为 所 有 的 探 针 都 是 随机 分 布 在 基因 芯片 上 的 ， 因 此 ， 理 
论 上 ， 权 重 和 残 差 (估计 值 和 观测 值 之 间 的 差异 ) 的 分 布 也 是 随机 的 。 执 行 例 5-5 代码 ， 可 
以 得 到 CLL 数据 集 的 权重 和 残 差 图 〈 图 5-9). 


CLL10.CEL Weights 


Residuals Residuals.sign 


图 5-9 ”CLL 数 据 集 的 权重 残 差 图 ( 见 彩 图 ) 


一 般 情况 下 ， 在 权重 图 中 ， 绿 色 代 表 较 低 的 权重 (接近 0)， 白 色 、 灰 色 代 表 较 高 的 权 
E (接近 1); 在 残 差 图 中 ， 红 色 代表 正 的 高 残 差 ， 白 色 代表 低 残 差 ， 蓝 色 代表 负 残 差 ; 在 
残 差 符号 图 中 ， 红 色 代表 正 的 残 差 ， 蓝 色 代 表 负 的 残 差 。 如 果 权 重 和 残 差 都 是 随机 分 布 的 ， 
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应 该 看 到 绿色 均匀 分 布 的 权重 图 和 红 蓝 均匀 分 布 的 残 差 图 。 图 5-9 中 ， 左 上 为 原始 图 像 ， 
右上 为 权重 图 ， 左 下 为 残 差 图 ， 右 下 为 残 差 符 号 图 。 从 图 5-9 中 可 以 看 到 ， 虽 然 在 一 定 程 
度 上 芯片 的 右 中 部 权重 及 残 差分 布 并 不 均匀 ， 但 是 总 体 上 看 来 还 是 可 以 接受 的 。 另 外 ， 还 
可 以 看 到 ， 图 中 左上 部 出 现 了 一 些 白色 的 条 块 ， 这 是 正常 的 现象 ， 因 为 有 些 时 候 ， 欣 针 会 
按照 GC 比率 (ОС ratio) 排 布 从 而 导致 白斑 的 出 现 。 那 什么 样 的 权重 和 残 差 图 是 不 可 接受 
的 呢 ? 如 图 5-10 所 示 。 


A н Р 


图 5-10 不 可 接受 的 权重 残 差 图 示例 ( 见 彩 图 ) 


在 对 比 实验 中 ， 即 使 是 相互 比较 的 对 照 组 与 实验 组 之 间 ， 大 部 分 基因 的 表达 量 还 是 应 
该 保持 一 致 的 , 平行 实验 之 间 一 致 性 更 强 。 相对 对 数 表 达 (RLE) 箱 线 图 可 以 反映 上 述 趋势 ， 
它 定义 为 一 个 探 针 组 在 某 个 样品 的 表达 值 除 以 该 探 针 组 在 所 有 样品 中 表达 值 的 中 位 数 后 取 
对 数 。 一 个 样品 的 所 有 探 针 组 的 RLE 的 分 布 可 以 用 一 个 统计 学 中 常用 的 箱 型 图 形 表示 。 如 
果 使 用 RLE 箱 线 图 来 控制 CLL 数据 集 的 实验 质量 , 每 个 样品 的 中 心 应 该 非常 接近 纵 坐 标 0 
WME (K 5-11)。 如 果 个 别 样品 的 表现 与 其 他 大 多 数 明 显 不 同 ， 那 说 明 可 能 这 个 样品 有 问 
题 。 运 行 例 5-6 代码 ， 可 以 得 到 图 5-11 结果 。 


例 5-6: 

# 安装 并 加 载 所 需 R 包 ，RColorBrewer 包 包 含 多 种 预 设 的 颜色 集 。 
source('http://Bioconductor.org/biocLite.R'); 
biocLite("RColorBrewer"); 
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library(affyPLM); 

library(RColorBrewer) ; 

library (CLL); 

# 读 入 数据 (CLL 包 中 附带 的 示例 数据 集 )。 

data (CLLbatch); 

# 对 数据 集 做 回归 计算 ， 结 果 是 一 个 “PLMset” 类 型 的 对 象 。 
Pset <-fitPLM(CLLbatch); 

# 载 入 一 组 颜色 。 

colors <- brewer.pal(12, "Set3"); 

# 绘制 RLE 箱 线 图 。 

Mbox(Pset ylim = с(-1, 1), col = colors, main = "RLE", las = 3); 
# 绘制 NUSE 箱 线 图 。 

boxplot(Pset, ylim = с(0.95, 1.22), col = colors, main = "NUSE", las = 3) ; 
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图 5-11 CLL 数据 集 的 RLE 箱 线 图 


NUSE 是 一 种 比 RLE 更 为 敏感 的 质量 检测 手段 。 如 果 根 据 RLE 箱 线 图 对 某 个 芯片 
的 质量 产生 怀疑 ， 那 么 再 结合 NUSE 图 ， 这 种 怀疑 就 可 以 确定 下 来 。NUSE 定义 为 一 
个 探 针 组 在 某 个 样品 的 PM 值 的 标准 差 除 以 该 探 针 组 在 各 样品 中 PM 值 标准 差 的 中 位 数 。 
如 果 所 有 芯片 的 质量 都 是 非常 可 靠 的 话 ， 那 么 它们 的 标准 差 会 十 分 接近 ， 因 此 它们 的 
NUSE 值 就 会 都 在 1 附近 。 然 而 , 如 果 有 某 些 芯片 质量 有 问题 的 话 , 就 会 严重 地 偏离 1， 
进而 导致 其 他 芯片 的 NUSE 值 偏 向 相反 的 方向 。 当 然 ， 还 有 一 种 非常 极端 的 情况 ， 那 
就 是 大 部 分 芯片 都 有 质量 问题 ， 但 是 它们 的 标准 差 却 比 较 接近 ， 反 而 会 显得 没有 质量 问 
题 的 芯片 的 NUSE 值 明 显 偏离 1， 所 以 必须 结合 RLE 及 NUSE 两 个 图 才能 作出 更 可 靠 
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的 判断 。 例 如 ， 结 合 图 5-11 和 5-12， 可 以 看 出 CLL1 及 CLL10 的 质量 明显 有 别 于 其 
他 样品 ， 所 以 需要 舍弃 。 
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5-12 CLL 数据 集 的 NUSE 箱 线 图 


RNA 降解 是 影响 芯片 数据 质量 的 一 个 很 重要 因素 。 因 为 RNA 是 从 5° 端 开始 降解 的 ， 
所 以 理论 上 探 针 5” 端的 荧光 强度 应 该 低 于 3 端的 荧光 强度 。RNA 降解 曲线 的 斜率 表示 了 
这 种 变化 趋势 ， 斜 率 越 小 ， 说 明 降 解 较 少 ， 反 之 ， 则 降解 越 多 。 但 是 ， 如 果 和 斜率 太 小 ， 甚 
至 接近 0， 就 要 特别 注意 ， 这 不 仅 不 代表 基本 没 降 解 ， 而 且 可 能 全 部 被 降解 。 因 为 ， 在 实际 
实验 中 ， 基 本 没 降解 是 不 可 能 的 ， 很 可 能 是 因为 RNA 降解 太 严重 ， 才 导致 计算 值 接近 0. 
从 图 5-13 中 ， 可 以 看 到 CLL13 对 应 的 曲线 几乎 平行 于 横 轴 ， 因 此 判断 很 可 能 降解 严重 ， 
需要 作为 坏 数 据 去 除 。 

最 后 ， 经 过 上 面 的 综合 分 析 ， 需 要 去 除 三 个 样品 数据 : CLL1、CLL10 和 CLL13。 


例 5-7: 

# 安装 并 加 载 所 需 及 包 。 
source('http://Bioconductor.org/biocLite.R'); 
biocLite("affy") ; 

library(affy); 

library(RColorBrewer); 

library (CLL); 

# 读 入 数据 (CLL 包 中 附带 的 示例 数据 集 )。 
data (CLLbatch); 

# 获取 降解 数据 。 

data.deg <- AffyRNAdeg(CLLbatch); 

# 载 入 一 组 颜色 。 


colors <- brewer.pal(12, "Set3"); 


四 122 有 R 语 言 与 Bioconductor 生物 信息 学 应 用 


# 绘制 RNA 降解 图 。 

plotAffyRNAdeg(data.deg, col = colors) ; 

# 在 左上 部 位 加 注 图 注 。 

legend("topleft", rownames(pData(CLLbatch)), col = colors, lwd = 1, inset = 0.05, сех = 
0.5); 

# 从 CLL 数据 集中 去 除 样品 CLLI、CLL10 和 CLL13。 

CLLbatch<-CLLbatch[,-match(c("CLL10.CEL","CLL1.CEL","CLL13.CEL"),sampleNames 
(CLLbatch))]; 
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前 面 讲 到 的 几 种 质量 控制 方法 都 是 基于 “平均 值 ” 思 想 的 。 其 实 ， 还 可 以 从 另外 一 个 
角度 来 对 芯片 质量 进行 检验 。 这 就 是 利用 芯片 之 间 的 相互 关系 ， 例 如 在 对 照 实验 中 ， 理 论 
上 组 内 同 种 类 型 的 芯片 数据 应 该 聚拢 在 一 起 ， 两 个 组 之 间 应 该 明显 地 分 离 。 这 个 思想 是 非 
常 合理 的 ， 需 要 做 的 就 是 找到 一 种 指标 来 刻画 芯片 数据 之 间 的 相似 度 或 距离 ，Pearson 线性 
相关 系数 就 是 最 常用 的 这 类 指标 。 基 于 “相互 关系 ”的 方法 ， 其 核心 是 相关 系数 矩阵 ， 它 
包括 了 全 部 关系 信息 。 计 算 相 关系 数 和 矩阵 ， 可 以 使 用 预 处 理 之 前 的 芯片 数据 ， 也 可 以 使 用 
标准 化 之 后 的 数据 〈 见 例 5-8)。 例 5-8 中 ， 通 过 查看 相关 系数 矩阵 “pearson_cor”， 可 以 看 
到 组 内 稳定 组 和 和 恶化 组 ) 和 组 间 相 似 度 差异 不 大 。 在 实际 应 用 中 ， 往 往 不 是 直接 查看 相 
关系 数 和 矩阵 ， 而 是 根据 由 相关 系数 矩阵 导出 的 距离 矩阵 ， 进 行 聚 类 分 析 或 主 成 分 分 析 以 对 
样品 归 类 并 图 形 化 显示 〈 见 例 5—8). 
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例 5-8: 

# 安装 并 加 载 所 需 及 包 。 

source('http://Bioconductor.org/biocLite.R'); 

biocLite("gcrma ); 

biocLite("graph ); 

biocLite("affycoretools"); 

library (CLL); 

library (gcrma); 

library (graph); 

library(affycoretools); 

# 读 入 数据 〈CLL 包 中 附带 的 示例 数据 集 )。 

data (CLLbatch); 

data (disease); 

# 使 用 germa 算法 来 预 处 理 数据 。 

CLLgcrma <- gcrma(CLLbatch) ; 

# 提取 基因 表达 算 阵 。 

eset <- exprs(CLLgcrma) ; 

# 计算 样品 两 两 之 间 的 Pearson 相关 系数 。 

реагѕоп_сог <- cor(eset) ; 

# 得 到 Pearson Н РЕ. 

151 Іомег <- as.dist(] - pearson_cor) ; 

# 聚 类 分 析 。 

hc <- hclust(dist. 'ауе"); 

# 根据 聚 类 结果 画 

plot(hc) ; 

# PCA 分 析 。 

samplenames <- sub(pattern="\\.CEL", replacement="",colnames(eset)) 

groups <- factor(disease[,2]) 

plotPCA(eset,addtext=samplenames,groups=groups,groupnames=levels(groups)) 

从 聚 类 分 析 的 整体 结果 来 看 〈 图 5-14), EA R 5-14 中 黑 框 标 出 ) 和 恶化 组 根本 
就 不 能 很 好 分 开 。 这 样 还 不 能 简单 判定 实验 完全 失败 ， 所 有 样品 数据 都 不 能 使 用 。 理 论 上 
讲 ， 如 果 总 体 上 两 组 数据 是 分 开 的 ， 那 么 说 明 我 们 关心 的 导致 癌症 从 稳定 到 恶化 的 因素 起 
到 主导 作用 ;， 如果 不是 ， 很 可 能 其 他 因素 起 到 主导 因素 ， 要 具体 问题 具体 分 析 。CLL 数据 
的 实验 样本 来 自 不 同 的 个 体 ， 而 不 是 细胞 ， 很 可 能 个 体 差 异 起 到 了 主导 作用 ， 因 此 导致 聚 
类 被 整体 打 乱 。 所 以 只 有 当 聚 类 图 中 有 明显 的 类 别 差 异 时 ， г 
样品 ， 如 果 整 体 分 类 被 打 乱 ， 则 不 能 简单 判定 所 有 样品 都 出 了 问题 。 芯 片 分 析 往 往 采 用 两 
个 主 成 分 来 构建 分 类 图 ， 从 图 5-15 也 可 以 看 出 稳定 组 (和 矩形》 яка EÉ) 根本 就 不 
能 很 好 分 开 。 使 用 主 成 分 分 析 时 ， 还 必须 考虑 前 2 个 主 成 分 是 否 具有 代表 性 ， 这 要 看 前 2 
个 主 成 分 的 累计 贡献 率 ， 如 果 低 于 60% ， 可 以 考虑 采用 另外 一 种 类 似 的 方法 来 构建 分 类 图 ， 
即 多 维 尺度 分 析 (Metric multi-dimensional scaling method) (. 
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5-15 ”gcRMA 算 法 处 理 过 的 所 有 样品 的 PCA 图 


5.3.33 和 背景 校正 、 标 准 化 和 汇总 


”芯片 数据 通过 质量 控制 ,剔除 不 合格 的 样品 ， 留 下 的 样品 数据 往往 要 通过 三 步 处 理 〈 背 
景 校正 、 标 准 化 和 汇总 ) 才能 得 到 下 一 步 分 析 所 需要 的 基因 表达 和 矩阵 。 

首先 ， 讲 一 下 背景 校正 。 前 面 提 到 的 芯片 中 MM 探 针 的 作用 是 检测 非特 异 杂交 信号 。 
理论 上 ， MM 只 有 非特 异性 杂交 ， 而 不 会 有 特异 性 杂交 ，MM 的 信号 值 永远 小 于 其 对 应 的 
РМ 信号 值 ， 那么 可 以 用 简单 的 数学 方法 处 理 一 下 , 做 一 个 РМ-ММ 或 РМ/ММ 即 可 去 除 背 
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景 噪声 的 影响 。 但 实际 中 ， 经 常 发 现 大 量 的 MM 信号 值 比 PM 信和 号 值 还 要 高 。 因 此 ， 需 要 
应 用 更 为 复杂 的 统计 模型 来 去 除 背 景 噪 声 , 这 个 过 程 叫做 背景 校正 (Background correction). 

其 次 ， 介 绍 一 下 标准 化 。 标 准 化 的 目的 是 使 各 次 /组 测量 或 各 种 实验 条 件 下 的 测量 可 以 
相互 比较 ， 消 除 测量 间 的 非 实 验 差 异 ， 非 实验 差异 可 能 来 源 于 样品 制备 、 杂 交 过 程 或 杂交 
信和 号 处 理 等 。 芯 片 数据 标准 化 ， 根 据 其 基本 假设 总 体 上 分 为 两 种 :“bulk normalization” 和 
“control-based normalization”. 前 者 假定 仅 有 一 小 部 分 基因 表达 值 在 不 同 条 件 下 有 差异 ,而 
绝 大 部 分 基因 表达 值 不 变 ， 因 此 使 用 所 有 的 基因 表达 值 作为 参考 进行 标准 化 ， 而 后 者 使 用 
表达 值 被 认为 是 恒定 不 变 的 参考 基因 (通常 为 芯片 制造 商 提供 的 外 源 参 考 基因 中 ) 作为 标准 
进行 标准 化 。 在 实际 应 用 中 ， 芯 片 数 据 标准 化 只 采用 第 一 种 方法 ， 但 最 近 Сеп 的 一 篇 文章 
也 对 这 种 方法 提出 了 质疑 中。 

最 后 ， 使 用 一 定 的 统计 方法 将 前 面 得 到 的 荧光 强度 值 从 探 针 (Probe) 水 平 汇 总 到 探 针 
组 (Probeset〉 水平 ， 这 个 过 程 被 称 为 汇总 (Summarization ) 。 

上 述 三 步 处 理 过 程 可 由 一 个 函数 实现 ， 它 就 是 affy 软件 包 中 的 expresso 函数 〈 见 例 
5-9)， 通 过 控制 这 个 函数 的 参数 ， 就 可 以 分 别 指定 三 步 处 理 具体 应 该 采用 的 方法 。 


例 5-9: 

# WAA К 

library(affy); 

library (CLL); 

data (CLLbatch) ; 

eset.mas<-expresso(CLLbatch,bgcorrect.method="mas",normalize.method="constant",pmcorrect. 
method="mas", summary.method="mas"); 


从 例 5-9 中 ， 可 以 看 出 expresso 函数 的 调用 非常 简单 ， 只 不 过 参数 过 于 复杂 ， 用 户 可 
以 通过 help(expresso) 命 令 获 得 它 的 全 部 参数 说 明 〈 表 5-1)， 也 可 以 通过 下 面 命令 查看 可 选 
的 参数 : 


bgcorrect.methods(); 
normalize.methods(CLLbatch); 
pmcorrect.methods(); 


express.summary.stat.methods(); 


表 5-1 expresso 函数 的 参数 


afbatch 输入 数据 必须 是 “AffyBatch” 类 型 的 对 象 
bgcorrect.method 背景 校正 的 方法 

bgcorrect.param 指定 的 背景 校正 方法 所 需要 的 参数 
normalize.method 标准 化 方法 

normalize.param 指定 的 标准 化 方法 所 需要 的 参数 
pmcorrect.method РМ 调整 方法 

pmcorrect.param 指定 的 PM 调整 方法 所 需要 的 参数 
summary.method 汇总 方法 


su .param 指定 的 汇总 方法 所 需要 的 参数 
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从 运行 结果 中 可 以 看 到 背景 校正 的 方法 有 三 种 :“bg.correct”、“mas” 和 “rma” 标准 
化 的 方法 有 八 种 :“constant”、“contrasts”、“invariantset”、“]loess”、“methods”、“qgspline”、 
“quantiles” 和 “quantiles.robust” PM 校正 的 方法 有 四 种 : s”, “methods”, “pmonly” 


ЯП “subtractmm”; 汇总 的 方法 有 五 种 :“avgdiff”、 айа сы “medianpolish ”和 
“playerout”。 在 汇总 的 方法 中 “1liwong” 是 dChip 一 体 化 算法 中 使 用 的 标准 化 方法 ( 表 5-2), 
但 是 由 于 dChip 并 不 开源 ， 所 以 Bioconductor 无 法 完全 的 复制 “liwong” 原 始 的 程序 代码 ， 
只 能 根据 文献 重 写 了 这 个 方法 。 

八 种 标准 化 方法 ， 又 可 以 分 为 芯片 间 标 准 化 方法 和 芯片 内 标准 化 方法 。 芯 片 间 标 准 化 
方法 针对 单 通道 СЛ 2.3.1) 芯片 数据 ， 常 用 的 有 三 种 : 线性 缩放 〈“constant”)、 不 变 集 
(“invariantset”) 和 分 位 数 方法 〈“quantiles”)。 芯 片 间 标准 化 方法 的 核心 思想 就 是 确定 一 个 
参考 芯片 〈 也 可 以 是 假想 的 )， 假 定 芯片 之 间 的 某 种 不 变量 ， 对 其 他 芯片 数据 进行 整体 的 拉 
伸 或 者 压缩 变换 。 最 简单 的 情况 是 ， 假 定 每 一 张 蔚 片上 基因 表达 的 均值 应 该 是 不 变 的 《〈 即 
线性 缩放 方法 ) 其 思路 是 依据 每 张 芯 片 的 总 体 信 息 进 行 变 换 ， 这 种 假设 过 于 粗糙 ， 后 来 便 
产生 了 基于 看 家 基因 的 标准 化 方法 ， 即 以 这 些 特 殊 基 因 作 为 参考 对 芯片 间 的 表达 值 进 行 调 
整 ， 进 一 步 的 研究 又 发 现 ， 有 时 不 易 得 到 看 家 基因 ， 而 且 有 些 看 家 基因 的 表达 在 各 个 芯片 
中 也 不 是 恒定 不 变 的 ， 因 此 又 发 展 了 以 那些 在 多 个 芯片 内 排序 比较 固定 的 基因 为 参考 进行 
变换 的 方法 。 线 性 缩放 方法 ， 以 其 他 芯片 和 参考 芯片 〈 默 认为 第 一 个 ) 所 有 基因 表达 值 均 
值 的 比值 为 因子 ， 对 其 他 芯片 的 表达 值 做 等 比例 缩放 〈 见 例 5-10)。 这 个 方法 非常 简单 ， 是 
МАЅ5 预 处 理 算法 〈 见 5.3.4) 默认 使 用 的 标准 化 方法 。 例 5-10 中 的 缩放 采用 了 第 一 个 芯片 
(默认 ) 作为 参考 ， 而 MAS5 预 处 理 算法 不 指定 任何 芯片 ， 而 是 设 定 了 一 个 假想 的 芯片 均值 
(默认 为 500) 作为 参考 ， 这 样 每 个 芯片 可 以 单独 计算 ， 而 不 必 依赖 参考 芯片 ， 有 新 的 数据 
加 入 时 ， 可 以 不 必 重 新 计算 已 经 标准 化 的 数据 。 分 位 数 方法 是 RMA 预 处 理 算 法 〈 见 5.3.4) 
默认 使 用 的 标准 化 方法 ， 这 里 不 做 详细 介绍 。 


例 5-10: 

# 安装 并 加 载 所 需 及 包 。 

library(affy); 

library (CLL); 

data(CLLbatch); 

# 使 用 таз 方法 做 背景 校正 。 

С таѕ5 <- bg.correct(CLLbatch, method="mas"); 

# 使 用 constant 方法 标准 化 。 

data_mas5 <- normalize((CLLmas5, method = "сопѕѓапі"); 
# 查看 每 个 样品 的 缩放 倍数 。 
head(pm(data_mas5)/pm(CLLmas5), 5); 

# 查看 第 二 个 样品 的 缩放 倍数 是 怎么 计算 来 的 。 
mean(intensity(CLLmas5)[,1])/mean(intensity(CLLmas5)[,2]); 


芯片 内 标准 化 方法 针对 双 通 道 ( 见 2.3.1) 芯片 数据 ， 又 可 分 为 全 局 化 方法 〈Global 
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normalization) 和 荧光 强度 依赖 的 方法 〈Intensity-dependent normalization)。 前 一 种 方法 假设 
红色 染料 的 信和 号 强度 与 绿色 染料 的 信号 强度 是 正比 例 关 系 的 ， 即 R=kG (К: 红色 信号 强度 ; 
G: 绿色 信和 号 强度 ; k 假设 为 常数 )。 差 异 表达 值 (log2(R/G)) 在 标准 化 之 后 相当 于 平移 了 一 
个 常量 clog (Kk)， 数 学 上 表示 为 logz(R/G)- с = logz(R/kG) = 0。 但 实际 上 ，e 并 不 是 一 个 常 
数 ， 而 是 另外 一 个 变量 的 A 的 函数 c(A)， 这 里 A=1/2*log(R*G)， 这 一 点 可 以 从 MA 图 (图 
5-16А) 中 看 到 м 的 总 趋势 不 是 平行 于 x 轴 的 。 


图 5-16 ”芯片 内 标准 化 (“Loess” 方 法 ) 前 后 MA 图 


MA (M 代表 Minus, A 代表 Average) 图 的 英文 全 称 是 : The distribution of the red/green 
intensity ratio plotted by ће average intensity。MA KIF, X M =log, (R/G)，A=1/2*xlog> 
(R*G)，R 和 G 已 经 不 再 特 指 双 通道 EDNA 芯片 中 红 和 绿 标记 的 样品 表达 量 ， 可 以 表示 任 
何 两 个 需要 对 比 的 数据 。 在 单 通 道 数据 中 ，R 和 С 来 自 需 要 比较 的 两 张 芯片 数据 。MA 图 
反应 的 是 基因 在 对 比 的 样品 中 表达 差异 〈 对 数 化 的 ) 随 基因 信号 强度 变化 〈 对 数 化 的 ) 的 
分 布 。 

根据 全 局 化 方法 的 假设 ， 数 据 标 准 化 后 的 MA 图 上 大 多 数 基因 的 差异 表达 值 M 值 ) 
应 该 对 称 分 布 在 水 平 的 中 心 线 (M=0) 附近 。 但 是 在 图 5-16A 中 ,该 芯片 数据 的 М 值 在 低 
表达 区 有 总 体 向 下 偏 移 的 趋势 ， 因 此 全 局 化 方法 的 假设 不 成 立 。 只 能 采用 荧光 强度 依赖 的 
方法 , 将 M 调整 为 以 0 为 中 心 的 分 布 ， 这 类 方法 最 常用 的 是 Loess 方法 。Loess 方法 ， 简 单 
来 说 就 是 对 不 同 А 值 的 基因 进行 局 部 加 权 回 归 ， 得 到 一 条 蓝 色 的 直线 〈 图 5-16B)。 由 于 双 
通道 cDNA 芯片 现在 已 很 少 使 用 ， 这 里 不 在 具体 举例 如 何 编程 实现 芯片 内 标准 化 方法 。 


5.34 预 处 理 的 一 体 化 算法 
前 面 5.3.3 中 讲 到 了 通过 设 定 参 数 ，expresso 函数 可 以 自动 化 实现 整个 预 处 理 过 程 〈 背 


景 校正 、 标 准 化 和 汇总 )。 除 了 expresso 函数 ， affyPLM 软件 包 提 供 了 threestep 函数 可 以 
更 快 地 实现 同样 的 功能 。 然 而 ， 在 这 类 函数 中 ， 如 果 三 步 处 理 中 的 每 一 步 都 要 用 户 自行 指 
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定 参数 的 话 ， 那 会 出 现 很 多 种 参数 的 组 合 ， 而 实际 上 有 些 组 合 是 不 能 使 用 的 。 在 实际 工作 
中 ， 应 用 较 多 的 是 使 用 预 设 参数 的 一 体 化 算法 〈 表 5-2)， 用 户 可 在 不 知道 细节 的 前 提 下 调 
用 相关 函数 ， 大 大 简化 预 处 理 过 程 。 


35-2 预 处 理 方法 


方法 背景 校正 方法 标准 化 方法 汇总 方法 
MAS5 mas constant mas 
dChip mas invariantset liwong 
RMA rma quantile medianpolish 


常见 的 预 处 理 一 体 化 算法 都 已 经 由 Bioconductor 按照 同名 函数 包装 好 以 供用 户 调 
Ж, айу 包 的 MAS5 和 КМА, 以 及 germa 包 的 gcRMA (基于 ВМА 方法 ) 等 。 因此， 
在 发 表 文 章 或 学 术 交 流 中 ， 一 般 可 以 简单 地 说 使 用 了 某 种 一 体 化 算法 (如 ВМА) 做 了 
芯片 数据 的 预 处 理 。 这 么 多 的 芯片 预 处 理 的 方法 究竟 哪个 最 好 ? Zhijin Wu 等 人 开发 了 RR 
软件 包 affycomp 专门 用 于 方法 评估 ， 不 过 此 包 巨 大 ， 需 要 很 强 的 硬件 资源 支持 。 用 
Affycomp 包 做 评估 需要 两 个 系列 的 数据 , 一 个 是 RNA 稀释 系列 芯片 数据 , 称 为 Dilution 
data， 另 一 个 是 使 用 了 内 参 /外 标 RNA 的 芯片 ， 称 为 Spike-in data。Spike-in ВМА 是 在 目 
标 物种 中 不 存在 , 但 在 芯片 上 含有 相应 检测 探 针 的 RNA， 比 如 Affymetrix 的 拟 南 芥 芯 片 
上 有 几 个 人 或 细菌 的 基因 检测 探 针 。 由 于 稀释 倍数 已 知 ， 内 参 /外 标的 RNA 量 和 杂交 特 
异性 也 已 知 ， 所 以 结果 可 以 预测 ， 也 就 可 以 用 于 方法 评估 。 对 于 严格 的 芯片 分 析 来 说 ， 
方法 评估 是 必需 的 。 

在 实际 工作 中 ， 使 用 得 较 多 的 是 MAS5 和 RMA 算法 ，RMA 算法 及 其 衍生 算法 
使 用 的 最 多 ; 而 асыр 很 少 使 用 ， 而 且 由 于 非 开 源 ， 没 有 被 Bioconductor 集成 。 这 里 不 
再 介绍 MAS5 和 RMA 算法 的 细节 ， 仅 对 其 差异 做 一 个 简单 对 比 。 

。 MAS5 每 个 芯片 可 以 单独 进行 标准 化 ， RMA 由 于 采用 的 是 多 芯片 模型 (Multi-chip 
model) 需要 所 有 芯片 一 起 进行 标准 化 。 

。 MAS5 利用 ММ 探 针 的 信息 去 除 背 景 噪声 , 基本 思路 是 МР-ММ; ВМА 不 使 用 MM 
信息 ， 而 是 基于 PM 的 信号 分 布 采用 随机 模型 来 估计 表达 值 。 

* RMA 处 理 后 的 数据 是 经 过 以 2 为 底 的 对 数 转换 的 ， 而 MAS5 不 是 ， 这 一 点 非常 重 
要 ， 因 为 很 多 芯片 分 析 软 件 或 函数 需要 的 输入 数据 必须 是 经 过 对 数 转 换 的 〈 见 例 5-13). 

通过 绘制 信号 强度 分 布 图 〈 这 里 采用 直方 图 ) 曲线 以 及 箱 线 图 ， 可 以 比较 不 同 算法 的 
ЖЖ САЛИЯ] 5-11). 


例 5-11: 

# лт RE. 
library(affy); 
library (gcrma); 
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library(affyPLM) ; 

library(RColorBrewer); 

library (CLL); 

data (CLLbatch) ; 

colors <- brewer.pal(12, "Set3"); 

# 使 用 MAS5 算法 来 预 处 理 数据 。 

CLLmas5 <- mas5(CLLbatch) ; 

# 使 用 гта 算法 来 预 处 理 数据 。 

CLLrma <- rma(CLLbatch) ; 

# 使 用 gcrma 算法 来 预 处 理 数据 。 

CLLgcrma <- gcrma(CLLbatch) ; 

# 直方 图 。 

hist(CLLbatch, main = "original", col = colors) ; 

legend("topright", rownames(pData(CLLbatch)), col = colors, lwd = 1, inset = 0.05, сех = 
0.5, ncol = 3) ; 

hist(CLLmas5, main = "MAS 5.0", xlim = c(-150, 2^10), col = colors) ; 

hist(CLLrma, main = "RMA", col = colors) ; 

hist(CLLgcrma, main = "gcRMA", col = colors) ; 

# 箱 线 图 。 

boxplot(CLLbatch, col = colors, las = 3, main = "огіріпа]") ; 

boxplot(CLLmas5, col = colors, las = 3, ylim=c(0, 1000), main = "MAS 5.0"); 

boxplot(CLLrma, col = colors, las = 3, main = "RMA") ; 

boxplot(CLLgcrma, col = colors, las = 3, main = "gcRMA"); 


从 信和 号 强度 分 布 图 来 看 〈 图 5-17), MAS5 算法 处 理 后 的 数据 出 现 了 很 多 负数 ， 读 者 可 
以 进一步 通过 了 解 MAS5 算法 细节 去 理解 这 些 负 数 是 怎么 来 的 。 从 图 5-17 中 还 可 以 看 到 ， 
原本 并 不 重合 的 多 条 分 布 曲线 ‘图 5-17A) 在 经 过 了 ВМА 算法 处 理 后 重合 到 了 一 起 (图 
5-17C)， 有 利于 下 一 步 的 差异 表达 分 析 。 但 是 它 却 表现 出 两 个 峰值 ， 这 并 不 符合 高 斯 正 态 
分 布 。 如 果 采 用 gcRMA 算法 处 理 , 不 但 所 有 的 曲线 很 好 地 重合 到 了 一 起 ,而 且 它 们 的 分 布 
也 更 加 近似 高 斯 分 布 (图 5-17D)。 因 此 ，gcRMA 算法 对 RMA 算法 的 改进 在 这 一 组 数据 
上 表现 得 十 分 明显 。 然 而 ， 这 并 不 意味 着 gcRMA 算法 总 是 优 于 RMA 算法 ， 对 于 不 同 的 
数据 ， 需 要 进行 算法 比较 ， 才 能 进一步 确定 哪 种 算法 最 合 i 

通过 箱 线 图 (图 5-18), 可 以 看 到 三 种 算法 处 理 后 的 各 样品 的 中 值 十 分 接近 。MAS5 算 
法 总 体 而 言 还 是 不 错 的 ， 只 是 有 一 定 的 拖 尾 现象 。 而 gcRMA 的 拖 尾 现象 比 ВМА 要 明显 
得 多 。 这 说 明 针对 低 表 达 量 的 基因 ，RMA 算法 比 gcRMA 算法 表现 更 好 一 些 。 
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图 5-17 信号 强度 分 布 图 的 直方 图 ( 见 彩 图 ) 


还 可 以 通过 MA 图 (图 5-19) 来 查看 标准 化 处 理 的 效果 。 从 例 5-12 中 (只 示例 CLL 
中 一 部 分 数据 ) 可 以 看 出 : 在 原始 数据 中 ， 中 值 〈 红 色 曲 线 ) 偏离 0， 经 过 gcRMA 预 处 
理 之 后 ， 中 值 基本 保持 在 零 线 上 。 注意 ,运行 例 5-12 最 后 一 行 代码 时 ，MAplot 函数 不 支持 
ExpressionSet 类 型 的 数据 CLLgcrma， 读 者 可 尝试 将 其 转 为 AffyBatch 类 型 后 再 运行 。 


例 5-12: 

# тт RE. 
library (есгта); 
library(RColorBrewer); 
library (CLL); 

library (affy); 

data (CLLbatch) ; 
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# 使 用 gcrma 算法 来 预 处 理 数 据 。 


colors <- brewer.pal(12, "Set3"); 
CLLgcrma <- gcrma(CLLbatch); 


"smoothScatter", cex = 0.8, main 


MAplot(CLLbatch[, 1:4], pairs = TRUE, plot.method 


"original MA plot"); 


"smoothScatter", cex = 0.8,main 


MAplot(CLLgcrma[, 1:4], pairs = TRUE, plot.method 


"gcRMA MA plot"); 
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图 5-19 ”gcRMA 处 理 前 后 的 МА 图 ( 见 彩 图 ) 


5.4 基因 芯片 数据 分 析 


本 书 2.3.3 提 到 了 基因 表达 差异 的 显著 性 分 析 在 基因 表达 数据 分 析 中 的 特殊 地 位 ， 而 且 
这 个 地 位 很 大 程度 上 都 是 基于 芯片 领域 的 经 验 得 来 的 。 尽 管 研究 人 员 不 断 改进 芯片 试验 和 
统计 学 方法 ， 并 不 断 寻 求 一 些 新 的 方法 〈 例 如 机 器 学 习 ) 来 分 析 芯 片 数据 ， 当 前 最 主要 的 
应 用 依然 还 是 基因 表达 差异 的 显著 性 分 析 。 本 节 从 例 5-13 到 5-17 的 程序 涵盖 了 一 个 显著 
性 分 析 的 完整 流程 ， 读 者 可 以 一 次 运行 全 部 代码 ， 也 可 以 拆 分 运行 以 便于 逐个 掌握 ， 但 是 
必须 连续 运行 所 有 程序 ， 因 为 后 面 的 程序 依赖 前 面 程 序 的 输出 。 通 过 这 几 个 实例 ， 读 者 可 
以 清晰 地 把 握 Bioconductor 处 理 芯片 数据 的 完整 过 程 。 


5.4.1 选取 差异 表达 基因 


基因 表达 差异 的 显著 性 分 析 的 第 一 步 就 是 选取 表达 具有 显著 性 差异 的 基因 。 总 体 来 说 ， 
这 类 分 析 的 基本 假设 是 标准 化 的 芯片 数据 符合 正 态 分 布 ， 因 此 所 用 的 统计 方法 基本 上 就 是 
T/F 检验 和 方差 分 析 或 者 改进 的 TF 检验 和 方差 分 析 。 当 前 ， 常 用 的 分 析 方 法 主要 有 : TH 
验 、SAM(Significance analysis of microarrays ) 方 法 [] 、CyberT 方 法 由 、 经 验 贝 叶 斯 (Empirical 
Bayes) 方法 外 、 方 差分 析 (The Analysis Of Variance, ANOVA) 00 和 RP (Rank products) 
HA, 

RP 方法 通过 计算 基因 表达 值 的 几何 平均 值 及 其 排序 的 变化 来 比较 两 组 间 的 差异 。 
SAM, CyberT 和 经 验 贝 叶 斯 都 是 调整 后 的 工 检验 ， 而 且 后 两 种 方法 都 采用 了 贝 叶 斯 方法 进 
行 调整 。CyberT 将 标准 差 及 信号 强度 的 关系 使 用 线性 模型 进一步 强化 ， 提 高 了 准确 率 ， 有 
研究 指出 ， 它 的 计算 结果 要 好 于 SAM 算法 。 经 验 贝 叶 斯 又 在 CyberT 基础 上 进行 了 改进 : 
首先 ， 经 验 贝 叶 斯 在 计算 标准 差 时 考虑 的 是 全 部 的 基因 ， 而 不 是 排序 后 相近 的 〈《 人 为 设 定 
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的 同一 个 窗口 范围 内 ) 基因 [0， 其 次 ， 经 验 贝 叶 斯 不 再 局 限于 两 组 数据 ， 可 以 通过 设计 实 
验 对 比 矩 阵 ， 计 算 多 种 复杂 条 件 下 的 差异 表达 。 因 此 ， 经 验 贝 叶 斯 是 当前 最 为 常用 的 分 析 
方法 ， 它 已 经 完整 地 由 Bioconductor 中 的 limma 包 实 现 。 但 是 ， 总 体 来 说 ， 现 在 没有 任 
何 理论 或 者 经 验 能 够 证 明 哪 种 算法 是 最 好 的 。 

limma 是 基于 К 和 Bioconductor 平台 的 分 析 世 片 数据 的 综合 软件 包 ， 该 包 功 能 齐全 、 
教程 完善 、 使 用 率 极 高 ， 几 乎 成 为 了 芯片 数据 处 理 流 程 的 代名词 031。 例 5-13 是 应 用 limma 
包 计 算 CLL 数据 集中 差异 表达 基因 的 整个 流程 。 


例 5-13: 

# 安装 并 加 载 所 需 尺 包 。 

source('http://Bioconductor.org/biocLite.R'); 

biocLite(“limma”) ; 

library(limma) ; 

library (germa); 

library (CLL); 

data (CLLbatch) ; 

data(disease); 

# 从 CLL 数据 集中 去 除 样品 CLL1、CLL10 和 CLL13。 

CLLbatch <- CLLbatch[, -match(c("CLL10.CEL", "CLL1.CEL", "CLL13.CEL"), 
sampleNames(CLLbatch))]; 

# 使 用 germa 算法 来 预 处 理 数据 。 

CLLgcrma <- рсгта(С1 1 Баќсћ); 

# 去 除 CLLgcrma 样品 名 中 的 “.CEL”。 

sampleNames(CLLgcrma) <- gsub(".CEL$", "", sampleNames(CLLgcrma)); 

# 去 除 disease 中 对 应 样品 CLL1, CLL10 和 CLL13 的 记录 。 

disease <- disease[match(sampleNames(CLLgcrma), disease[,"SampleID"]),]; 

# 构建 余下 21 个 样品 的 基因 表达 和 矩阵。 

eset <- exprs(CLLgcrma) ; 

# 提取 实验 条 件 信息 。 

disease <- Ғасіог(іѕеаѕе[, "Юіѕеаѕе"]); 

# 构建 实验 设计 矩阵 。 

design <- model.matrix(~-1+disease); 

# 构建 对 比 模型 ， 比 较 两 个 实验 条 件 下 表达 数据 。 

contrast.matrix <- makeContrasts (contrasts = "іѕеаѕергоргеѕ. - diseasestable", levels = 
design); 

# 线性 模型 拟 合 。 

fit <- ImFit(eset, design) ; 

# 根据 对 比 模型 进行 差 值 计算 。 


fitl <- contrasts.fit(fit, contrast.matrix) ; 
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# 贝 叶 斯 检验 。 

fit2 <- eBayes(fitl) ; 

# 生成 所 有 基因 的 检验 结果 报表 。 

dif <- topTable(fit2, coef = "diseaseprogres. - diseasestable", n = nrow(fit2), lfc = 
log2(1.5)) ; 

# 根据 PValue 对 结果 进行 筛选 ， 得 到 全 部 差异 表达 基因 。 

dif <- dif[dif[, "P.Value"] < 0.01, ] ; 

# 显示 结果 的 前 六 行 。 


head(dif) ; 

++ р logFC AveExpr t P. Value adj.P. Val B 

## 9491 39400_at -0.9997850 5.634004 -5.727329 1.482860е-05 0.1034544 2.4458354 
++ 327 1303_at -1.3430306 4.540225 -5.596813 1.974284е-05 0.1034544 2.1546350 
H 3827 33791_at 1.9647962 6.837903 5.400499 3.047498е-05 0.1034544 1.7135583 
+ 6191 36131_at 0.9574214 9.945334 5.367741 3.277762е-05 0.1034544 1.6396223 
H 7710 37636_at 2.0534093 5.478683 5.120519 5.699454е-05 0.1439112 1.0788313 
++ 6182 36122_at 0.8008604 7.146293 4.776721 1.241402е-04 0.2612118 0.2922106 


首先 ， 可 以 从 最 终结 果 〈 即 变量 “dif”) 中 查看 所 有 的 两 组 数据 《〈 即 恶化 期 与 稳定 期 ) 
之 间 差 异 表 达 基 因 的 信息 。 每 行 数据 对 应 一 个 探 针 组 ， 包 括 8 列 信息 : 第 1 列 是 探 针 组 在 
基因 表达 矩阵 eset 中 的 行 号 ; 第 2 列 “ID” 是 探 针 组 的 Affymatrix ID; 第 3 列 “logFC” 是 
两 组 表达 值 间 以 2 为 底 对 数 化 的 变化 倍数 〈Fold change，FC)， 注 意 由 于 基因 表达 和 矩阵 eset 
本 身 已 经 取 了 对 数值 ， 因 此 这 里 实际 上 只 是 两 组 基因 表达 值 均 值 之 差 ; 第 4 列 “AveExpr” 
是 该 探 针 组 在 所 有 样品 中 的 平均 表达 值 (Average expression value ); 第 5 列 “t” 是 贝 叶 斯 
调整 后 的 两 组 表达 值 间 工 检验 中 的 { 值 ; 第 6 列 “PValue” 是 贝 叶 斯 检验 得 到 的 P 值 ; 第 7 
列 “adj.PValue” 是 调整 后 的 P 值 (adjusted Р Value); 第 8 列 “B” 是 经 验 贝 叶 斯 得 到 的 标 
准 差 的 对 数 化 值 ， 由 于 涉及 较 深 的 数学 基础 ， 这 里 不 再 涉及 。 为 了 加 深 理 解 limma 的 计算 
过 程 ， 读 者 可 以 用 简单 函数 来 得 到 探 针 组 “39400_at” 的 行 号 、“AveExpr” 和 “logFC”。 

然后 ， 逐 次 介绍 这 个 分 析 过 程 的 六 个 关键 步骤 : 构建 基因 表达 矩阵、 构建 实验 设计 算 
阵 、 构 建 对 比 模型 〈 也 叫 对 比 矩 阵 )、 线 性 模型 拟 合 、 贝 叶 斯 检验 和 生成 结果 报表 。 

构建 基因 表达 和 矩阵 时 ， 需 要 注意 的 是 ，limma 对 输入 数据 的 要 求 是 必须 是 经 过 对 数 转 
换 的 表达 值 。 例 5-13 调用 了 gcRMA 算法 来 对 数据 进行 预 处 理 ， 得 到 标准 化 后 的 基因 表达 
矩阵 eset， 这 个 矩阵 是 经 过 对 数 转换 的 。 但 是 ， 如 果 是 从 其 他 算法 〈 例 如 MAS5) 得 到 的 数 
据 ， 还 需 自行 编程 进行 对 数 转换 。 

实验 设计 和 矩阵 需要 调用 model.matrix 函数 构建 ， 该 函数 需要 用 户 指定 一 个 公式 ， 构 建 
好 的 实验 设计 矩阵 design 要 提供 给 下 一 步 的 拟 合 函数 ImFit。 通 过 查看 design 变量 ,可 以 看 
到 下 面 内 容 : 实验 设计 矩阵 的 每 一 行 对 应 一 个 样品 的 编号 ， 每 一 列 对 应 样品 的 一 个 特征 ， 
每 个 特征 实际 上 形成 了 一 个 包含 若干 样品 的 组 ， 通 过 比较 不 同 组 闻 的 基因 表达 值 〈 一 般 是 
平均 值 )， 就 可 以 得 到 差异 表达 基因 。 比 如 ， 在 例 5-13 中 ， 一 共有 21 个 样品 ， 它 只 考虑 
了 一 个 因素 ， 即 疾病 状态 〈disease)， 这 个 因素 有 两 个 水 平 ， 即 恶化 〈progressive) 和 稳定 
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(stable)， 最 后 实验 矩阵 中 出 现 了 diseaseprogres. 和 diseasestable 两 个 特征 。 多 因素 和 多 水 平 
的 实验 设计 ， 会 产生 更 多 的 特征 ， 这 里 不 做 讨论 。 


design diseaseprogres. diseasestable 
1 1 0 
2 0 1 
3 1 0 
4 1 0 
5 1 0 
6 0 1 
7 0 1 
8 1 0 
9 0 1 
10 1 0 
11 0 1 
12 1 0 
13 0 1 
14 0 1 
15 1 0 
16 1 0 
17 1 0 
18 1 0 
19 1 0 
20 1 0 
21 0 1 


比较 模型 需要 调用 такеСопітаѕіѕ 函数 构建 ， 该 函数 需要 用 户 指 定 一 个 公式 ， 这 个 公式 
表明 用 户 要 求 对 实验 矩阵 design 中 的 哪 一 列 特征 和 哪 一 列 特征 进行 比较 ， 以 得 到 差异 。 例 
5-13 指定 的 是 在 恶化 和 稳定 两 个 水 平 之 间 进 行 比较 ， 以 寻找 这 两 个 水 平 之 间 的 差异 表达 基 
因 ， 因 此 ， 公 式 表示 为 contrasts =“diseaseprogres. — diseasestable”， 注 意 “diseaseprogres.” 
中 的 “.” 是 CLL 数据 集中 对 “progressive” 人 简写 带 来 的 ， 不 是 运算 符号 。 

接 下 来 是 根据 实验 设计 矩阵 调用 函数 对 基因 表达 和 矩阵 做 线性 拟 合 ImFit(eset, design) ， 
根据 对 比 模型 进行 差 值 计算 ， 最 后 是 贝 叶 斯 检验 〈 见 5.4.1)。 由 于 这 些 涉及 较 深 的 统计 学 背 
景 ， 这 里 不 再 讨论 。 

最 后 ,重点 讲 一 下 topTable 函数 , 它 的 主要 功能 有 三 项 :QD 对 贝 叶 斯 检验 得 到 的 “P.Value” 
进行 调整 得 到 “adj.P.Value”， 调 整 的 算法 默认 是 ВН (Benjamini-hochberg) 算法 ; 名 生成 全 
部 基因 的 检验 结果 报表 ; @ 还 可 以 通过 某 个 参数 来 第 选 具 有 显著 性 差异 表达 的 基因 ， 通 常 
使 用 “adj.PValue”， 常 用 的 阔 值 一 般 是 0.05 或 者 0.01， 也 可 以 使 用 “PValue”( 见 例 5-13)。 
这 里 有 三 点 需要 注意 : (DtopTable 提供 了 多 种 方法 可 以 做 基因 筛选 ， 例 5-13 就 通过 对 数 化 
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的 变化 倍数 “lfc” 去 掉 了 一 些 在 两 组 条 件 下 变化 不 大 的 基因 ， 但 是 这 样 做 的 理由 并 不 是 很 
充分 ， 因为 变化 倍数 不 大 的 不 一 定 就 是 没有 显著 变化 ; @topTable 还 提供 了 参数 可 以 对 基因 
进行 排序 ， 比 如 使 用 “adj.P.Value” 从 小 到 大 排序 ， 可 以 很 清楚 地 看 到 变化 最 显著 的 基因 ; 
@ 显 著 性 基因 的 选取 具有 一 定 的 主观 性 ， 阔 值 设 定 是 0.01 还 是 0.05 并 没有 严格 的 标准 。 


542 ”注释 


找到 了 差异 表达 基因 ， 接 下 来 是 使 用 注释 包 对 差异 表达 基因 进行 注释 。 在 4.2.3 中 的 注 
释 一 部 分 讲解 中 提 到 过 Bioconductor 的 几 种 注释 方式 ， 对 Affymetrix 芯片 产生 的 差异 表达 
基因 的 注释 就 采用 第 一 类 注释 方式 , 即 下 载 对 应 具体 平台 的 注释 包 , 进行 本 地 注释 。 例 5-14 
使 用 Bioconductor 提供 的 hgu95av2 注释 包 为 例 5—13 中 选取 的 差异 表达 基因 进行 注释 (这 
部 分 代码 需要 在 例 5-13 后 执行 )。 例 5-14 只 用 两 种 基因 ID 来 对 探 针 组 进行 注释 ， 有 关 用 
基因 本 体 论 (GO) 05 和 通路 (Pathway) 注释 029 的 内 容 与 5.4.3 的 GO 和 通路 富 集 分 析 
一 起 讲解 。 


例 5-14: 

# 加 载 注 释 工 具 包 。 

library(annotate) ; 

# 获得 基因 芯片 注释 包 名 称 。 

affydb <- annPkgName(CLLbatch@annotation, type = "db"); 

# 查看 基因 芯片 注释 包 名 称 。 

affydb 

## [1] "hgu95av2.db" 

# 加 载 注释 包 hgu95av2.db， 必 须 设 定 character.only。 

library(affydb, character.only = TRUE) ; 

# 根据 每 个 探 针 组 的 ID 获取 对 应 的 基因 Gene Symbol， 并 作为 一 个 新 的 列 ， 加 到 数据 
框 dif 最 后 。 

dif$symbols <- getSYMBOL(rownames(dif), affydb) ; 

# 根据 每 个 探 针 组 的 ID 获取 对 应 的 基因 EntrezID， 同 样 加 到 数据 框 dif 最 后 

dif$EntrezID <- getEG(rownames(dif), affydb) ; 

# 显示 结果 的 前 六 行 。 

head(dif) ; 

ID logFC AveExpr t P.Value adj.P.Val В symbols EntrezID 
39400_at -0.9997850 5.634004 -5.727329 1.482860e-05 0.1034544 24458354 ТВСІЮ2В 23102 
1303_at -1.3430306 4.540225 -5.596813 1.974284e-05 0.1034544 2.1546350 SH3BP2 6452 
33791_at 19647962 6.837903 5.400499 3.047498е-05 0.1034544 1.7135583 DLEUI 10301 
36131_at 0.9574214 9.945334 5.367741 3.277762е-05 0.1034544 1.6396223 CLICI 1192 
37636_at 2.0534093 5.478683 5.120519 5.699454е-05 0.1439112 1.0788313 PHF16 9767 


£ E # # Ë Ë 


36122_at 0.8008604 7.146293 4.776721 1.241402e-04 0.2612118 0.2922106 <NA> <NA> 
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例 5-14 注释 实质 上 就 是 一 个 ID 映射 的 过 程 ( 见 2.3.1)， 也 就 是 把 芯片 探 针 组 的 ID 映 
射 到 基因 国际 标准 名 称 (Gene symbol) 和 Entrez ID 两 种 ID E. Gene symbol 是 由 人 类 基因 
命名 委员 会 (The HUGO Gene Nomenclature Committee, HGNC) 为 每 个 人 类 基因 提供 的 唯 
一 命名 ， 一 般 是 大 写 拉丁 字母 缩写 形式 ， 后 面 可 加 数字 ， 非 常 便 于 人 工 阅 读 。Gene symbol 
的 最 主要 特点 就 是 唯一 性 和 普遍 性 。 大 多 数 科 研 工 作者 看 到 这 个 名 字 就 能 直接 联系 到 这 个 
基因 的 简单 功能 等 信息 。 最 后 一 列 的 所 谓 Entrez ID 实际 上 是 NCBI 数据 库 中 的 GI (GenInfo 
Identifier). NCBI 对 于 每 一 条 提交 的 序列 , 根据 其 存 入 NCBI 数据 库 时 的 先后 顺序 赋 给 一 个 
整数 ,这 就 是 GI。 这 里 增加 一 列 GI 的 目的 ,就 是 为 了 下 一 步 通 过 GI 映射 到 基因 本 体 论 (GO)， 
然后 做 GO 的 富 集 分 析 。 


5.4.3 统计 分 析 及 可 视 化 


差异 基因 注释 后 的 下 一 步 工 作 就 是 统计 分 析 和 可 视 化 〈 见 2.3)。 对 于 差异 表达 分 析 ， 
最 主要 的 两 种 统计 分 析 就 是 GO 的 富 集 分 析 ( 见 2.4.4) 和 KEGG 通路 的 富 集 分 析 07 СЙ 
2.4.5)。 这 两 种 分 析 分 别 由 Bioconductor 的 GOstats 包 〈 见 例 5-15) 和 GeneAnswers 包 ( 见 
例 5-16) 实现 。 


例 5-15: 

# т RE. 

library(GOstats); 

# 提取 НО 095Ау2 芯片 中 所 有 探 针 组 对 应 的 EntrezID， 注 意 保证 uniq。 

entrezUniverse <- unique(unlist(mget(rownames(eset), hgu95av2ENTREZID))) ; 

# 提取 所 有 差异 表达 基因 及 其 对 应 的 EntrezID， 注 意 保证 uniq。 

entrezSelected <- unique(dif[!is.na(dif$EntrezID), "Епіге210"]); 

# 设置 GO 富 集 分 析 的 所 有 参数 。 

params <- new("GOHyperGParams", genelds = entrezSelected, universeGenelds = 
entrezUniverse, 

annotation = affydb, ontology = "BP", pvalueCutoff = 0.001, conditional = FALSE, 
testDirection = "оуег"); 

# 对 所 有 的 GOterm 根据 params 参数 做 超 几 何 检验 。 

hgOver <- hyperGTest(params); 

# 生成 所 有 GOterm 的 检验 结果 报表 。 

bp <- summary(hgOver) ; 

# 同时 生成 所 有 GOterm 的 检验 结果 文件 ， 每 个 GOterm 都 有 指向 官方 网 站 的 链接 ， 可 
以 获得 其 详细 信息 。 

htmlReport (hgOver, file='ALL_go.html) ; 

# 显示 结果 的 前 六 行 。 

head (bp) ; 
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## GOBPID Pvalue OddsRatio ExpCount Count Size 
## 1 GO:0022904 1.506871е-10 16.342857 0.9699506 12 75 

## 2 СО:0022900 2.159531е-10 13.554352 1.2415367 13 96 

#+ 3 СО:0045333 6.012575е-10 12.349920 1.3449981 13 104 
ж 4 GO:0055114 3.436386e-08 4.996817 5.2377330 21 405 
## 5 GO:0015980 6.778482e-08 6.222680 3.1297071 16 242 
## 6 GO:0006091 1.486143e-07 5.201994 4.2160517 18 326 
++ Term 

## 1 respiratory electron transport chain 


#2 electron transport chain 
##3 cellular respiration 
HH 4 oxidation-reduction process 
#5 energy derivation by oxidation of organic compounds 
#6 generation of precursor metabolites and energy 


从 例 5-15 RAAR ORE “Ьр”) 可 以 看 到 每 个 显著 性 富 集 的 GO tem 含有 六 列 信 
息 (不 包括 行 号 ): 第 1 列 是 GO term H Ір, 16 10 对 应 的 内 容 在 后 面 列 出 , 如 “GO:0022900” 
对 应 后 面 的 “respiratory electron transport chain”; 第 2 列 “Pvalue” 是 超 几 何 检验 的 P 值 ; 
第 3 列 “OddsRatio” 是 超 几 何 分 布 中 的 比值 比 ， 第 4 列 “ExpCount” 是 根据 超 几 何 分 布 ， 
差异 表达 基因 中 期 望 属于 这 个 GO term 的 基因 数量 ; 第 5 列 “Count” 是 差异 表达 基因 中 
实际 属于 这 个 GO term 的 基因 数量 ; 第 6 列 “Size” 是 总 基因 中 属于 这 个 GO term 的 基因 
数量 。 以 “GO:0022904 ?为 例 , 此 次 分 析 的 总 基因 数量 为 8804, 差异 表达 基因 数量 为 113 8804 
个 基因 中 有 75 个 基因 〈 即 “Size”) 属于 “GO:0022904” 如 果 从 8804 个 基因 中 随机 抽取 
113 个 基因 ， 那 么 113 个 基因 中 期 望 属 于 “GO:0022904” 的 基因 数量 应 该 是 2.25〈 即 
“ExpCount”)， 而 实际 上 是 12 个 〈 即 “Count”)， 根 据 这 个 情况 ， 计 算出 来 的 P 值 应 该 是 
1.506871е-10 〈 远 远 小 于 0.01), 因此 可 以 说 差异 显著 基因 在 “GO:0022904” 上 是 显著 富 
集 的 。 为 了 加 深 理 解 GO 富 集 分 析 的 计算 过 程 ， 读 者 可 以 用 人 简单 函数 来 计算 Р 值 。 另 外 ， 
例 5-15 还 通过 函数 htmlReport 输出 了 一 个 HTML 的 报告 文件 ， 它 在 前 面 六 列 信息 的 基础 
上 ， 多 加 了 一 列 GO term 的 描述 ， 并 且 链 接 到 GO 的 官方 网 站 ， 便 于 读者 进一步 查看 相关 
信息 。 

值得 注意 的 是 ， 对 比例 5-15 和 例 5-14 的 结果 报表 ， 可 以 看 到 例 5-15 的 报表 bp 没有 
根据 P 值 来 筛选 统计 上 显著 富 集 的 GO term， 因 此 包括 了 全 部 的 GO term。 


例 5-16: 

# 安装 并 加 载 所 需 R 包 。 
source("http://Bioconductor.org/biocLite.R"); 
biocLite("GeneAnswers"); 

library(GeneAnswers) ; 

# 选取 dif 中 的 三 列 信息 构成 新 的 矩阵 ， 第 一 列 必 须 是 EntrezID。 


л 
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humanGeneInput <- dif[, c("EntrezID", "logFC", "Р.Уаіџе")]; 

## 获得 humanGeneInput 中 基因 的 表达 值 。 

humanExpr <- eset[match(rownames(dif), rownames(eset)), ] ; 

# 前 两 个 数据 做 列 合 并 ， 第 一 列 必 须 是 EntrezID。 

humanExpr <- cbind(humanGeneInput[, "EntrezID"], humanExp?) ; 

# 去 除 NA 数据 。 

humanGeneInput <- humanGeneInput[!is.na(humanGeneInput[， 1]), ]; 

humanExpr <- humanExpr[!is.na(humanExpr[, 1]), ] ; 

# KEGG 通路 的 超 几 何 检验 

у <- geneAnswersBuilder(humanGeneInput，"org.Hs.eg.db", categoryType = "KEGG", 
testType = "hyperG", pvalueT = 0.1, geneExpressionProfile = humanExpr, verbose = FALSE) ; 

getEnrichmentInfo(y)[1:6,]; 


genes in Category percent in the observed List percent in the genome fold of overrepresents odds ratio p value 
05012 12 0.2222222 0.02214651 10.034188 13.796610 1.299916е-09 
05010 13 0.2407407 0.02844974 8.461965 11.657586 2.018105e-09 
00190 11 0.2037037 0.02248722 9.058642 12.040169 2.057705e-08 
05016 12 0.2222222 0.03117547 7.128112 9.431913 6.424705e-08 
04260 7 0.1296296 0.01311755 9.882155 12.225532 5. 477311е-06 
01100 22 0.4074074 0.19250426 2.116355 2.921255 2.067770е-04 


例 5-16 调用 GeneAnswers 包 实 现 了 KEGG 通路 的 注释 、 统 计 和 可 视 化 的 功能 。 而 且 
GeneAnswers 功能 强大 ， 除 了 KEGG， 还 可 以 支持 GO, REACTOME 和 CABIO 等 多 个 数 
据 库 ， 可 以 通过 设 定 参 数 categoryType 分 别 指定 注释 类 型 。 从 例 5-16 最 终结 果 可 以 看 到 每 
个 显著 性 富 集 的 通路 含有 6 列 信息 〈 不 包括 行 号 ): 第 1 列 “genes in Category” 表 示 有 多 少 
个 基因 属于 这 个 通路 ， 第 2 列 “percent іп ће observed List” 表 示 在 观察 到 的 基因 列表 中 的 
比例 ; 第 3 列 “percent in ће genome” 是 在 基因 组 中 的 比例 ; 第 4 列 “fold of оуеггергеѕепіѕ” 
是 基因 过 表达 的 倍数 ; 第 5 列 “OddsRatio” 是 超 几 何 分 布 中 的 比值 比 ; 第 6 列 “Pvalue” 
是 超 几 何 检验 的 P 值 。 

可 视 化 可 以 直观 显示 统计 结果 ， 帮 助 研 究 人 员 进 一 步 理解 实验 结果 并 找到 下 一 步 工 作 
的 思路 ， 因 此 可 视 化 和 统计 分 析 密 不 可 分 。Bioconductor 的 所 有 统计 分 析 包 几乎 都 提供 了 
相应 的 函数 来 显示 数据 分 析 结 果 。 这 里 根据 前 面 的 分 析 结 果 , 调用 pheatmap 包 来 绘制 差异 
表达 谱 热 图 (图 5-20)， 调 用 Rgraphviz 包 来 绘制 显著 富 集 的 GO term 的 关系 图 ; 最 后 绘制 
显著 富 集 的 KEGG 通路 的 关系 图 和 热 图 。 


例 5-17: 

# 安装 并 加 载 所 需 R E. 
source("http://Bioconductor.org/biocLite.R"); 
biocLite("pheatmap"); 

library(pheatmap); 

# 从 基因 表达 矩阵 中 ， 选 取 差 异 表 达 基 因 对 应 的 数据 。 
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selected <- eset[rownames(dif), ] ; 

# 将 selected ЖЕЕ Т И) НЕГА ID 转换 为 对 应 的 基因 symbolo 

rownames(selected) <- dif$symbols; 

# 考虑 到 显示 比例 ， 我 们 只 画 前 20 个 基因 的 热 图 。 

pheatmap(selected[1:20, ], color = colorRampPalette(c("green", "black", "теа"))(100), 
fontsize_row = 4, scale = "row", border_color = NA); 


# 安装 并 加 载 所 需 及 包 。 

source("http://Bioconductor.org/biocLite.R"); 

biocLite("Rgraphviz"); 

library(Rgraphviz); 

# 显著 富 集 的 GO term 的 DAG 关系 图 ， 见 图 5-21。 

ghandle <- goDag(hgOver) ; 

# 该 图 巨大 ， 只 能 取 一 部 分 数据 构建 局 部 图 。 

subGHandle <- subGraph (snodes=as.character(summary(hgOver)[ ,1]), graph=ghandle) ; 

plot(subGHandle) ; 

# 显著 富 集 的 KEGG 通路 的 关系 图 ， 见 图 5-22。 

уу <- geneAnswersReadable (y,verbose = FALSE); 

geneAnswersConceptNet (уу, colorValueColumn= "logFC", centroidSize ="руаіџе", output 
= "interactive"); 

# 显著 富 集 的 KEGG 通路 的 热 图 ， 见 图 5-23。 

ууу <- geneAnswersSort (уу, sortBy="pvalue"); 

geneAnswersHeatmap(yyy) 
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5-20 ”差异 表达 谱 热 图 ( 见 彩 图 ) 


第 五 章 Bioconductor 分 析 基因 芯片 数据 141 四 


GO:0044710 GO:0015949 
GO:0044281 


GO:0022900 GD:0015980 
GO:0045333 


GO:0022904 


图 5-21 显著 富 集 的 GO term 的 关系 图 
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5-22 ”显著 富 集 的 KEGG 通路 的 关系 图 ( 见 彩 图 ) 
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图 5-23 显著 富 集 的 KEGG 通路 的 热 图 ( 见 彩 图 ) 
# 输出 会 话 信息 。 
sessionInfo() 
R version 3.0.1 (2013-05-16) 
Platform: x86_64-apple-darwin10.8.0 (64-bit) 


locale: 
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8 
attached base packages: 


[1] grid arallel stats raphics grDevices utils datasets methods base 
Б р g 


other attached packages: 


[1] GeneAnswers_2.2.1 RColorBrewer_1.0-5 Heatplus_2.6.0 MASS_7.3-29 XML_3.95-0.2 
[6] RCurl_1.95-4.1 bitops_1.0-6 igraph_0.6.5-2 Rgraphviz_2.4.1 GOstats 2.26.0 
[11] graph_1.38.3 Category_2.26.0 annaffy_1.32.0 KEGG.db 2.9.1 GO.db 2.9.0 
[16] hgu95av2.db_2.9.0 org.Hs.eg.db_2.9.0 RSQLite_0.11.4 DBI 0.2-7 annotate_1.38.0 
[21] hgu95av2probe_2.12.0 hgu95av2cdf_2.12.0 AnnotationDbi_1.22.6 CLL_1.2.14 gcrma_2.32.0 
[26] affy_1.38.1 Biobase_2.20.1 BiocGenerics 0.6.0 Пітта 3.16.7 


loaded via а namespace (апа пої attached): 


[1] affyio_1.28.0 AnnotationForge_1.2.2 BiocInstaller 1.10.3 Biostrings_2.28.0 genefilter_1.42.0 
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[6] GSEABase_1.22.0 IRanges_1.18.3 ргергосеѕѕСоге_1.22.0КВСІ, 1.36.2 ѕрііпеѕ 3.0.1 
[11] ѕ(а(54 3.0.1 ѕигуіуа!_2.37-4 10015 _3.0.1 xtable_1.7-1 zlibbioc_1.6.0 


5.5 芯片 处 理 实 际 课题 一 


5.5.1 课题 背景 


机 器 学 习 是 一 门 多 领域 交叉 学 科 ， 通 过 研究 一 类 特殊 算法 ， 使 计算 机 程序 可 以 从 以 往 
的 经 验 中 不 断 学 习 ， 从 而 提升 其 在 处 理 特定 任务 (如 分 类 和 回归 〉 时 的 性 能 。 用 机 器 学 习 
方法 分 析 蔚 片 数据 是 较 高 层次 的 统计 应 用 ， 其 最 常见 的 形式 就 是 两 类 样本 的 分 类 ， 如 癌症 
与 正常 。 传 统 的 机 器 学 习 主 要 是 单 任务 学 习 ， 例 如 某 种 癌症 和 正常 样本 之 间 的 分 类 。 在 真 
实 世 界 中 ， 人 类 在 学 习 某 项 任务 时 ， 如 果 把 这 项 任务 和 多 个 相关 任务 一 起 学 习 ， 往 往 会 取 
得 融会 贯通 的 效果 。 从 这 个 现象 得 到 的 启发 是 多 个 相关 任务 之 间 列 含 着 一 类 问题 的 共性 。 
为 了 利用 这 一 规律 ， 控 掘 同 类 任务 间 的 共有 信息 ， 提 高 数据 集 的 代表 性 ， 增 强 学 习 的 泛 化 
能 力 ， 研 究 人 员 提出 了 多 任务 学 习 的 概念 。 


А. 
Ж | 癌症 共同 基因 
十 | 各 类 癌 基 因 的 交集 


图 5-24 多 任务 学 习 实 现 同 时 分 类 


1997 年 ，R. Caruana 等 对 多 任务 学 习 研 究 的 成 果 发 表 于 Machine Learning， 标 志 着 多 任 
务 学 习 这 一 概念 的 正式 提出 踢 。Caruana 解决 多 任务 学 习 问 题 的 方法 基于 神经 网 络 。 作 为 一 
种 新 的 机 器 学 习 范 式 , 多 任务 学 习 引 起 了 机 器 学 习 领 域 研究 者 的 关注 , J. Baxter 等 的 研究 初 
步 解释 了 多 任务 学 习 为 何 有 效 请 轨 。 除 了 理论 分 析 外 ， 研 究 者 们 还 对 多 任务 学 习 进 行 了 大 
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量 的 应 用 方法 研究 ， 出 现 了 基于 正则 化 后 、 层 次 贝 叶 斯 鸣 、Logistic 回归 P5、 径 向 基 函 数 网 
络 29、 支 持 向 量 机 P! 以 及 独立 成 分 分 析 BI 等 技术 的 多 任务 学 习 方 法 。 

虽然 癌症 具有 高 度 异 质 性 ， 细 胞 类 型 和 组 织 来 源 各 异 ， 但 所 有 癌症 的 发 病 机 制 具 有 共 
同 的 关键 特征 ， 因 此 生物 学 界 普遍 认同 不 同 癌症 有 共同 的 发 病 机 制 。 多 年 来 ， 出 现 了 很 多 
基于 芯片 数据 寻找 癌症 共有 基因 (Соттоп cancer genes) 的 研究 。 但 是 ， 由 于 以 前 的 方法 
都 采用 了 先 将 癌症 分 类 处 理 ， 然 后 寻找 各 癌症 基因 数据 集结 果 的 交集 的 方法 ， 这 种 先 分 解 
局 部 寻 优 再 综合 的 思想 ， 不 能 有 效 利用 各 数据 集 之 间 的 关联 信息 (图 5-24A)。 为 了 克服 
这 些 缺 点 ， 高 山 等 的 首次 采用 多 任务 学 习 方法 来 寻找 癌症 共有 基因 ， 试 图 通过 全 局 优化 的 
方法 , 确定 那些 能 够 将 正常 样本 和 各 种 癌症 样本 同时 区 分 开 的 最 为 显著 的 特征 (图 5-24B)， 
有 助 于 阐明 癌症 发 生 的 共同 机 制 。 在 上 述 研 究 过 程 中 ， 高 山 等 构建 了 两 种 基于 支持 向 量 机 
的 分 类 器 MTLS-SVMs 和 MT-Feat3, 用 MT-Feat3 分 类 器 从 22215 个 基因 (实际 上 是 探 针 组 ) 
中 选取 了 72 个 基因 (对 应 73 个 探 针 组 ) 作为 12 种 癌症 的 共有 基因 ， 并 采用 MTLS-SVMs 
分 类 器 在 另 一 组 测试 数据 上 验证 了 基因 选择 的 有 效 性 。 此 项 目 从 数据 获取 、 预 处 理 、 算 法 
实现 ， 一 直到 所 有 图 表 生 成 都 采用 了 R 和 Bioconductor 编程 ， 是 一 个 非常 典型 的 实例 ， 由 于 
多 任务 学 习 算法 涉及 较 多 的 机 器 学 习 背 景 知 识 ， 这 里 只 介绍 数据 获取 和 预 处 理 等 实现 过 程 。 


5.52 数据 集 与 预 处 理 


本 研究 数据 来 自 Oncomine 癌症 基因 芯片 数据 库 (https://www.oncomine.org), 下 载 了 全 
部 Affymetrix U133 平台 (包括 U133 A&B 和 Plus 2.0 芯片 ) 的 实验 数据 共 53 个 数据 集 。 经 
过 三 个 条 件 的 严格 筛选 : 第 一 是 每 个 数据 集 必须 含 适当 比例 的 正 负 《癌症 和 正常 ) 样本 ; 
第 二 是 必须 有 原始 数据 提供 〈 有 一 个 除外 为 第 三 是 每 种 癌症 只 要 样本 总 数 最 多 的 一 个 数据 
集 。 最 后 得 到 12 个 数据 集 ( 总 共 497 个 样品 数据 ) 用 于 机 器 学 习 训 练 〈 表 5-3), 11 个 数 
据 集 用 于 检测 〈 这 部 分 请 参考 发 表 的 相关 论文 ) 2", 


表 5-3 12 个 癌症 数据 集 


1D 种 类 芯片 类 型 标准 化 (=) (+) 
GSE15471 胰腺 癌 U133 Plus 2.0 RMA 39 39 
GSE5563 阴道 癌 U133 Plus 2.0 MAS5 10 9 
GSE3325 前 列 腺 癌 U133 Plus 2.0 MAS5 6 13 
GSE9844 头颈 癌 U133 Plus 2.0 RMA 12 26 
GSE5788 血 癌 U133A MAS5 8 6 
GSE6344 BJE U133A MAS5 10 10 
GSE10072 肺癌 U133A RMA 49 58 
GSE13911 胃癌 U133 Plus 2.0 MAS5 31 38 
GSE1420 食道 癌 U133A MAS5 8 16 
GSE2503# ЖКУ U133A ak_03 6 9 
GSE8671 结肠 癌 U133 Plus 2.0 MAS5 32 32 
GSE5764 乳腺 癌 U133 Plus 2.0 GCOS 20 10 


Ж: “ID” 使 用 NCBI GEO 数据 库 ID, “(+)” 表 示 正 样本 (癌症) 个 数 ，“( -)”， 表示 负 样 本 (正常 ) 
个 数 ，“#” 没 有 提供 原始 数据 。 
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从 12 个 数据 集中 可 以 看 到 ， 它 们 的 标准 化 方法 共有 四 种 。 多 任务 学 习 并 不 要 求 所 有 的 
数据 集 都 是 用 同一 种 方法 来 进行 标准 化 的 ， 因 此 可 以 直接 使 用 标准 化 后 的 数据 集 来 进行 多 
任务 学 习 。 但 是 考虑 到 他 人 数据 处 理 可 能 产生 的 错误 或 者 未 说 明 详细 的 步骤 ， 更 严谨 的 方 
法 是 从 原始 数据 (CEL 文件 ) 开始 ， 用 同一 种 算法 对 全 部 数据 进行 标准 化 。 根 据 结果 对 比 ， 
这 样 做 的 结果 确实 提高 了 多 任务 学 习 的 性 能 ， 这 里 不 再 细 究 提高 的 原因 。 本 课题 中 的 数据 
预 处 理 至 少 要 完成 以 下 任务 : 

(1) 提取 0133 Plus 2.0 和 U133A 两 类 芯片 共有 的 探 针 组 ID。 

(2) 下 载 11 个 数据 集 的 CEL 文件 ， 统 一 用 RMA 算法 预 处 理 。 

(3) 对 于 没有 原始 数据 的 “GSE2503” 数 据 集 ， 表 达 值 要 转换 到 与 其 他 11 个 数据 集 可 
比 的 范围 。 


5.5.33 R 程 序 与 代码 讲解 


例 5-18: 

# 安装 并 加 载 所 需 民 包 。 
source('http://Bioconductor.org/biocLite.R'); 
biocLite ("GEOquery") ; 

library (GEOquery); 

library (CLL); 

# 设置 当前 目录 。 
setwd("C:\\workingdirectory"); 

# 读 入 U133A 中 22215 个 共有 探 针 组 列表 。 
U133Acols<-read.table("U133Acols"); 

# 得 到 11 个 数据 集 的 ID 中 的 数字 。 
numbers=c(15471,5563,3325,9844,5788,6344,10072,13911,1420,8671,5764); 
# 得 到 11 个 数据 集 在 СЕО 数据 库 中 的 ID。 
GEO_IDs=paste("GSE",numbers,sep = ""); 

# 得 到 11 个 数据 集 下 载 文件 的 后 级 名 。 
tars=paste(GEO_IDs,"_RAW .tar",sep = ""); 

# 生成 一 个 空 变量 ， 用 了 保存 数据 标准 化 后 的 结果 。 
trainX=c(); 

# 11 次 循环 处 理 11 个 数据 集 。 

for(i in 1:length(GEO_IDs)) 

{ 

# 得 到 下 载 数据 的 目标 路 径 十 名 称 。 
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СЕО (аг <- paste(GEO_IDs[il,tars[il,sep = "/"); 

# 下 载 数 据 集 。 
getGEOSuppFiles(GEO=GEO_IDs[il,baseDir = getwd()); 
# 将 当前 数据 集中 的 所 有 样品 数据 解压 到 data 子 目录 。 
untar(GEO tar, exdir="data"); 

# 得 到 当前 数据 集中 的 所 有 样品 对 应 的 数据 文件 名 称 。 
cels <- list.files("data/", pattern = "[02]"); 

# 解压 当前 数据 集中 的 所 有 样品 对 应 的 数据 文件 。 
ѕаррІу(раѕіе("аѓа", cels, вер="/"), gunzip); 

# 得 到 data 子 目 录 的 全 路 径 。 

celpath <- paste(getwd(),"data",sep = "/"); 

# 转 到 даа 子 目 录 ， 同 时 保留 当前 目录 到 oldWD。 
oldWD <- setwd(celpath); 

# 读 取 当 前 目录 中 的 所 有 样品 对 应 的 CEL 文件 。 
raw_data <- ReadAffy(); 

# 回 到 工作 目录 。 

setwd(oldWD); 

# 删除 data 子 目录 中 全 部 文件 ， 否 则 下 次 循环 会 追加 写 。 
unlink("data", recursive=TRUE) ; 

# 用 RMA 算法 标准 化 数据 。 

rma_data <- rma(raw_data); 

# 得 到 基因 表达 矩阵 eset。 

eset <- exprs(rma_data); 

# 基因 表达 矩阵 转 置 后 ， 选 择 需 要 的 列 。 
X<-t(eset)[,as.vector(t(U133Acols))]; 

# 提取 的 数据 集 不 断 按 行 向 后 追加 。 
trainX=rbind(trainX,x); 

} 

# 11 个 数据 集 处 理 完 毕 ， 保 存 到 文件 trainX 中 。 


write.table (trainX, file = "trainX", sep = "\t",row.names = F,col.names = F) ; 


0133 Plus 2.0 含有 54613 个 探 针 组 ，U133A 含有 22283 个 探 针 组 ， 它 们 共有 22215 个 
公共 探 针 组 ， 因 此 需要 编程 提取 这 个 22215 个 探 针 组 的 ID， 存 入 文件 “U133Acols”， 以 后 
的 所 有 数据 集 都 根据 这 个 公共 探 针 组 列表 提取 数据 ， 读 者 可 尝试 自行 编程 生成 这 个 文件 ， 
并 在 程序 运行 前 ， 放 入 工作 目录 “C:\workingdirectory”。 对 于 11 个 数据 集 的 CEL 文件 ， 
可 以 登录 到 NCBI 基因 表达 数据 库 (Gene expression omnibus, GEO) 网 站 下 载 。 但 是 如 果 
这 么 做 ， 那 说 明 读者 还 没有 真正 掌握 Biocondoctor 的 方法 和 思路 ，Biocondoctor 强调 从 数据 
获取 到 处 理 完毕 的 一 气 呵 成 ( 见 例 5-18)。 例 5-18 运行 完毕 可 以 得 到 一 个 数据 文件 “trainX”， 
它 的 列 对 应 22215 个 探 针 组 ， 行 对 应 497 个 样品 ， 符 合 接 下 来 多 任务 学 习 需 要 的 输入 格式 。 
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例 5-18 中 ， 函 数 ReadAffy 可 以 一 次 性 读 入 当前 目录 下 的 所 有 样品 对 应 的 CEL 文件 ， 因 此 
需要 消耗 大 量 内 存 ， 如 果 遇 到 样品 数量 较 大 的 数据 集 (如 GSE15471)， 还 需 使 用 大 内 存 服 
务 器 运行 。 


例 5-19: 

# WMAP TE RE. 

library (GEOquery); 

# 设置 当前 目录 。 
setwd("C:\\workingdirectory"); 

# 读 入 U133A 中 22215 个 共有 探 针 组 列表 。 
U133Acols<-read.table("U133Acols"); 

# 数据 集 GSE2503 的 基因 表达 数据 。 
gds<-getGEO(GEO = "GSE2503", destdir = getwd()); 
# 得 到 基因 表达 矩阵 eset. 

eset <- exprs(gds[[1]]); 

# 基因 表达 和 矩阵 转 置 后 ， 选 择 需 要 的 列 。 
x<-t(eset)[,as.vector(t(U133Acols))]; 

# 全 部 数据 转化 为 以 2 为 底 的 对 数 。 
trainX2<-log2(x) ; 

# 结果 保存 到 文件 trainX2 中 。 


write.table (trainX2, file = "ігаіпХ2",ѕер = "\t",row.names = F,col.names = Б) ; 


GSE2503 数据 集 由 于 无 法 获得 其 原始 的 CEL 文件 ， 只 能 转 而 获取 预 处 理 过 的 基因 表达 
矩阵。 前 面 11 个 数据 集 经 过 ВМА 预 处 理 后 数据 普遍 分 布 在 〈2,15) 之 间 ， 而 GSE2503 Ж 
据 集 的 数据 分 布 范围 却 是 〈0.6000, 7.1819e+005)， 很 明显 ， 该 数据 是 没有 经 过 对 数 化 的 ， 
因此 必须 通过 对 数 转 换 ， 才 能 与 其 他 11 个 数据 具有 可 比 性 。 例 5-18 完成 了 从 数据 下 载 到 
预 处 理 的 全 部 过 程 , 处 理 后 的 数据 分 布 在 (-0.7370, 19.4540) 之 间 , 最 后 存 入 文件 “trainX2”， 
用 户 合并 文件 “trainX” 和 “trainX2” 就 可 以 得 到 全 部 训练 集 的 数据 ,文章 9 中 用 到 的 训练 


5.6 芯片 处 理 实际 课 题 二 


5.61 课题 背景 


本 书 2.1.4 讲 到 过 miRNA 对 mRNA 的 调控 作用 ， 更 进一步 来 讲 ，miRNA 是 通过 结合 
到 mRNA 的 3” UTR 区 域 来 降解 mRNA 的 (图 5-25)。 由 于 miRNA 与 mRNA 的 结合 有 很 
强 的 规律 性 ， 可 以 根据 miRNA 与 mRNA 的 序列 信息 来 计算 它们 之 间 的 结合 关系 ， 从 而 判 
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定 哪 个 mRNA 是 miRNA HŽ. miRNA 与 mRNA 的 联合 研究 ， 会 分 别 从 miRNA 芯片 和 
mRNA 中 找到 差异 表达 基因 ， 通 过 预测 找到 miRNA К E mRNA)， 然 后 根据 “如 果 
miRNA 上 调 , 其 对 应 靶 mRNA 应 该 下 调 ”的 假设 ， 从 另 一 个 角度 确认 miRNA 与 mRNA 的 
关系 。 由 于 联合 分 析 涉 及 较 多 的 生物 学 背景 ， 因 此 本 节 不 涉及 。 

本 节 举 例 只 涉及 预测 一 组 已 知 的 miRNA (来 自 芯 片 数 据 的 差异 表达 分 析 ) 在 猪 转录 组 
上 的 靶 点 。 整 个 过 程 分 为 两 部 分 : 数据 预 处 理 和 miRNA 靶 点 预测 。 由 于 miRNA 8 х 
使 用 的 是 程序 miRanda，R/bioconductor 编程 只 用 于 数据 预 处 理 。 


i miRNA 
蛋白 质 编码 区 шант аш 
зе З' ОТК gn 


一 、 miRNA 


5-25 miRNA 与 mRNA 结 合 原理 
5.6.2 数据 集 与 处 理 过程 


加 点 预测 程序 miRanda 需要 输入 两 种 数据 ， 除 了 已 知 的 miRNA 序列 ( 见 例 5-20), Ж 
需要 输入 猪 转 录 组 上 的 全 部 3 UTR 数据 ， 这 可 以 使 用 Bioconductor 的 biomaRt 包 从 公开 数 
据 库 中 获取 。 本 书 4.3.2 的 例 4-9 介绍 了 如 何 使 用 biomaRt 包 编程 从 ensemble 数据 库 获 得 猪 
转录 组 全 部 I UTR 数据 〈 存 于 文件 “UTR3seqs-1.fa”) 的 过 程 。 这 里 例 5-21 通过 另外 一 种 
方式 获得 这 些 序列 〈 存 于 文件 “UTR3seqs-2.fa”)， 读 者 可 以 细心 对 比 两 者 之 间 的 异同 。 对 
生物 信息 有 兴趣 的 读者 ,可 以 到 网 站 http:/www.microrna.org/microrna/getDownloads.do 下 载 
miRNA 靶 点 预测 软件 miranda, 根据 miRNA 序列 和 猪 转录 组 上 3?UTR 序列 ,运行 “./miranda 
miRNA .fa UTR3seqs-1.fa -out resultl -quiet” l“ ./miranda miRNA .fa UTR3seqs-2.fa -out result2 
-quiet” 得 到 本 项 目的 最 终结 果 。 


5.63 程序 与 代码 讲解 


例 5-20: 
# WAH A RE. 
library (Biostrings); 
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# 设置 当前 目录 。 

setwd("C:\\workingdirectory"); 

# 从 文件 miRNA.tab Л miRNA 序列 ， 第 一 列 是 序列 ID， 第 二 列 是 序列 内 容 。 
datal<-read.table("miRNA .tab"); 

# 提取 序列 内 容 。 

seqs=as.character(data1[,2]); 

# 提取 序列 ID. 

патеѕ(ѕедѕ)=ааѓа1[,1]; 

# 用 生成 RNAStringSet 对 象 ， 保 存 为 fasta 格式 文件 。 
Biostrings:writeXStringSet(RNAStringSet(seqs, use.names=TRUE),"miRNA а"); 


例 5-21: 

# іп тт К Е. 

library(biomaRt); 

library (Biostrings); 

# 选中 "ensembl" 数 据 库 。 

ensembl_mart <- useMart(biomart="ensemb!"); 

# 选中 "sscrofa" 数 据 集 。 

dataset_pig <-useDataset(dataset="Sscrofa_gene_ensembl ,mart= епѕетЫ! тагї); 

# 从 dataset_pig 数据 集中 根据 affy_porcine ID 和 description 信息 。 

idlist <- getBM(attributes=c("affy_porcine","description"), mart=dataset_pig); 

# 从 dataset_pig 数据 集中 根据 affy_porcine ID 提取 序列 。 

seqs = getSequence(id=idlist["affy_porcine"], іуре="а у _рогсіпе", ѕедТуре="Зий", mart = 
dataset_pig); 

# 去 除 没 有 序列 内 容 的 数据 记录 。 

Seqs = Seqs[!seqs[,1]=="Sequence unavailable",]; 

# 去 除 没 有 UTR 注释 的 数据 记录 。 

seqs = Seqs[!seqs[,1]=="No UTR is annotated for this ігапѕсгірі",]; 

# 提取 序列 的 内 容 。 

X=Seqs[,1]; 

# 提取 序列 的 ID。 

патеѕ(х)=ѕед5[,2]; 

# 结果 存 入 文件 "UTR3seqs-2.fa"， 格 式 为 fasta。 

write.XStringSet(DNAStringSet(x, use.names=TRUE),"UTR3seqs-2.fa"); 


对 比例 5-21 与 前 面 4.3.2 的 例 4-9， 可 以 看 到 前 者 根据 affy_porcine 芯片 的 探 针 组 ID, 
而 后 者 根据 ensembl_transcript_id 下 载 同样 的 数据 。 读 者 对 比 后 ， 可 以 发 现 其 结果 确实 是 不 
HK, 不 同 的 原因 我 在 这 里 就 不 详细 介绍 了 。affy_porcine 芯片 的 所 有 探 针 组 ID 可 以 到 网 站 
http://www.affymetrix.com/support/technical/byproduct.affx?product=porcine Р, 根据 芯片 的 
所 有 ID 文件 “pig_affy_IDs”， 读 者 可 以 运行 例 5-22 程序 建立 ensembl 与 affy 的 两 种 ID 之 
间 的 映射 文件 ， 然 后 再 结合 两 个 数据 文件 "UTR3seqs-1.fa" 和 “"UTR3seqs-2.fa"， 编 程 寻找 它 
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们 之 间 不 同 的 原因 。 


例 5-22: 

# MAMA RE. 

library(biomaRt); 

library (Biostrings); 

pig_affy_IDs<- read.table("pig_affy_IDs"); 

pig_affy_IDs<- as.character (unlist(pig_affy_IDs)); 

# 列 出 "sscrofa" 数 据 集 的 所 有 特征 , 才 知 道 包括 "ensembl_transcript_id" 和 "affy_porcine"。 

іа mapping <- getBM(attributes=c("ensembl]_ transcript_id","affy porcine")， filters = 
"affy_porcine", values = pig_affy_IDs, mart=dataset_pig); 

write.table (id_mapping,"emsembl-affy",sep="\t") 


5.7 相片 处 理 实际 课题 三 


5.71 课题 背景 


从 前 面 差异 表达 分 析 的 几 个 例子 中 ， 可 以 看 出 差异 表达 往往 需要 在 两 组 样本 中 进行 比 
较 ， 而 每 组 的 样品 个 数 一 般 都 大 于 3， 这 样 比较 的 结果 才能 估计 出 一 个 统计 性 的 指标 〈 如 了 
值 )。 但 是 有 些 蔚 片 研 究 ， 或 者 考虑 成 本 因素 ， 或 者 对 结果 要 求 不 严格 ， 采 用 每 组 一 个 样品 
做 差异 表达 分 析 ， 对 于 这 样 的 数据 ， 往 往 采 用 简单 的 倍数 变化 的 策略 选取 差异 表达 基因 。 


5.7.2 数据 集 与 处 理 过 程 


本 节 来 自 六 个 样品 〈 表 5-4)， 前 四 个 样品 来 自 HEK293 细胞 系 ， 考 虑 两 个 因素 对 基因 
表达 的 影响 : 一 个 是 敲 入 〈knock іп) CD147 基因 及 其 阴性 〈 没 敲 入 ) 对 照 ， 另外 一 个 就 是 
HJA (sphere) 和 悬浮 (monolayer) 两 种 不 同 的 细胞 培养 方式 。 后 两 个 样品 只 考虑 一 个 因素 
对 基因 表达 的 影响 ， 即 一 个 是 敲 低 (Кпоск down) CD147 基因 及 其 阴性 ( 没 敲 低 ) 对 照 。 


表 5-4 六 个 样品 数据 的 介绍 


文件 样品 注释 

1.CEL HEK293_EGFP_monolayer 阴性 对 照 ， 悬 浮 培 养 
2.CEL HEK293_EGFP_sphere 阴性 对 照 ， 单 层 培养 
3.CEL HEK293_CD147_monolayer Л. CD147 ЖА], ЖҮРӨР 
4.CEL HEK293_CD147 _ѕрһеге ЕЛ. CD147 基因 ， 单 层 培养 
5.CEL МІАРаСа 2. МС 阴性 对 照 

6.CEL MIAPaCa_2_A6 ВИЕ CD147 基因 


首先 ， 进 行 质量 控制 ， 然后 ， 找 到 六 个 样品 间 五 种 对 比 之 间 的 差异 表达 基因 ( 表 5-5), 
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进行 注释 、GO 和 Pathway 分 析 ; 最 后 ， 在 前 四 个 样品 的 四 种 对 比 的 基础 上 ， 考 虑 两 种 因素 
的 影响 ， 找 到 对 比 1 和 4 之 间 、 对 比 2 和 3 之 间 共 同 的 差异 表达 基因 ， 并 对 两 组 共同 表达 
基因 做 注释 、GO 和 Pathway 分 析 。 


表 5-5 五 种 对 比 的 介绍 


编号 差异 表达 目的 
1 HEK293_EGFP_monolayer vs НЕК293_ЕСЕР_$рһеге 细胞 培养 方式 的 影响 
2 HEK293_EGFP_monolayer vs HEK293_CD147_monolayer 基因 敲 入 的 影响 
3 HEK293_EGFP_sphere vs HEK293_CD147_sphere 基因 敲 入 的 影响 
4 HEK293_CD147_monolayer vs HEK293_CD147_sphere 细胞 培养 方式 的 影响 
5 MIAPaCa 2_NC уз MIAPaCa 2_ Аб 基因 敲 低 的 影响 


质量 分 析 部 分 包括 : 根据 原始 数据 (CEL 文件 ) 中 PM 探 针 数据 产生 的 信号 强度 分 布 
图 (图 5-26A) 和 NUSE 箱 线 图 (图 片 未 提供 ); 根据 原始 数据 (CEL 文件 ) 中 全 部 探 针 
数据 产生 了 ВМА 降解 曲线 (图 5-26B ); 根据 ВМА 预 处 理 后 的 数据 又 产生 了 РСА 图 (图 
5-27)。 如 何 编程 绘制 这 几 张 图 在 前 面 内 容 中 都 有 详细 描述 ， 读 者 可 尝试 自行 编程 产生 这 些 
图 片 ， 这 里 不 再 提供 R 代码 。 从 图 5-26A 中 可 以 看 出 ， 六 个 样品 的 数据 保持 了 同样 形状 的 
分 布 ， 因 此 总 体 上 是 好 的 ; 图 5-26B 总 体 上 没有 过 于 平 直 的 曲线 ， 因 此 基本 上 降解 不 大 ， 
可 以 接受 。 但 是 样品 1 和 3 与 其 他 样品 间 有 一 定 差异 ， 会 引入 一 些 与 对 比 目 的 无 关 的 差异 
表达 基因 ， 例 如 样品 1 与 2 对 比 中 ， 我 们 希望 只 考虑 敲 入 CD147 基因 带 来 的 影响 ， 而 尽量 
排除 其 他 因素 的 影响 ， 而 样品 2 比 样品 1 降解 严重 这 个 因素 会 对 结果 产生 影响 。 特 别 是 在 
只 有 一 个 样本 的 情况 下 ， 这 个 因素 的 影响 无 法 通过 统计 方法 排除 。 结 合 NUSE 箱 线 图 进 一 
步 分 析 时 ， 发 现 所 有 样品 的 中 心 值 都 非常 接近 1， 没 有 任何 特别 不 一 样 的 样品 出 现 ， 因 此 认 
为 降解 差异 在 可 以 容许 的 范围 内 。 上 述 问题 可 以 通过 РСА 图 进一步 解释 从 图 5-27 中 ， 
可 以 看 出 主 成 分 一 (PC1) 可 以 把 样品 5 和 6 与 其 他 样品 远 远 分 开 ， 可 以 解释 为 它们 来 自 不 
同 细 胞 系 ; 从 主 成 分 二 (PC2) 来 看 样品 1 和 3 与 样品 2 和 4 差异 很 大 ， 这 里 有 两 种 可 能 ， 
或 者 是 细胞 培养 方式 带 来 的 差异 远 远 大 于 敲 入 CD147 基因 带 来 的 差异 ， 或 者 是 样品 2 和 4 
降解 带 来 的 差异 成 为 主要 因素 (图 5-26B)。 
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5-26 ”六 个 样品 的 质量 控制 图 
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图 5-27 六 个 样品 的 PCA 图 


57.3 民 程 序 与 代码 讲解 


例 5-23: 

# лт К Е. 

library(affycoretools); 

library(genefilter); 

library(annotate); 

library(GOstats); 

# 读 入 所 有 CEL 文件 。 

rawData <- read.affybatch(filenames=list.celfiles()); 
# 检查 是 否 读 入 所 有 文件 。 
sampleNames(rawData); 

# 使 用 КМА 算法 预 处 理 所 有 数据 。 

eset <- rma(rawData); 

# 获得 基因 芯片 注释 包 名 称 。 

annoPackage <- paste(annotation(eset), ".db", ѕер=""); 
# 安装 并 加 载 所 需 对 应 的 基因 芯片 注释 包 。 
source("http:/Bioconductor.org/biocLite.R"); 
biocLite(annoPackage); 

library(annoPackage, character.only = TRUE); 

# 取出 所 有 探 针 组 的 Affymetrix Ір. 


affy_IDs <- featureNames(eset); 
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# 取出 数据 集 的 注释 信息 。 

an <- annotation(eset); 

# 根据 每 个 探 针 组 的 ID 获取 对 应 的 Gene Symbol。 

symbols <- as.character(unlist(mget(affy_IDs,get(paste(an, "SYMBOL", ѕер=""))))); 

# 所 有 "NA", 转 换 成 ""。 

Symbols[is.na(symbols)] <- ""; 

# 根据 每 个 探 针 组 的 ID 获取 对 应 的 Gene Мате. 

gene_names <- as.character(unlist(mget(affy_IDs,get(paste(an,"GENENAME", вер=""))))); 

# 所 有 "NA", 转 换 成 "。 

gene_names[is.na(gene_names)] <- ""; 

# 根据 每 个 控 针 组 的 ID 获取 对 应 的 Entrez Ір. 

entrez <- unlist(mget(affy_IDs, get(paste(an, "ENTREZID", ѕер="")))); 

# 根据 每 个 探 针 组 的 ID 获取 对 应 的 UNIGENE ID. 

ипірепеѕ<-аѕ.сһагасіег(ипіѕ аррІу(треа#у 105,рераѕќе(ап,"ОМІСЕМЕ",ѕер=""))),раѕіе, 
соПарѕе="//"))); 

# 根据 每 个 探 针 组 的 ID 获取 对 应 的 RefseqID 。 

refseqs<-as.character(unlist(lapply(mget(affy_IDs, get(paste(an, "REFSEQ", sep=""))),paste, 
collapse="//"))); 

# 数据 基因 表达 矩阵， 同时 把 注释 的 其 他 数据 库 ID， 按 注释 顺序 对 应 到 探 针 组 中 。 

out<-data.frame(ProbeID=affy_IDs,Symbol=symbols,Name=gene_names,EntrezGene=entrez, 
UniGene=unigenes,RefSeq=refseqs, exprs(eset), stringsAsFactors=FALSE); 

row.names(out) <- 1:length(affy_IDs); 

# 将 带 注 释 的 数据 基因 表达 和 矩阵 输出 。 

write.table(out, "Expression_table.xls", sep="\t',row.names=F); 

# 六 个 样品 的 名 称 。 

samples<-c(HEK293_EGFP_monolayer,HEK293_EGFP_sphere,HEK293_CD147_monolayer, 
'HEK293_CD147_sphere','MIAPaCa 2_NC',MIAPaCa 2_А6?; 

# 五 组 对 比 的 名 称 。 

compNames = paste(samples[c(1,1,2,3,5)],samples[c(2,3,4,4,6)],sep=" vs ); 

# 设计 一 个 过 滤 准 则 ， 要 求 每 个 基因 在 六 个 样品 中 至 少 表达 一 次 。 

fltl <- kOverA(1,6); 

# 五 组 对 比 中 log2Fold 超过 1 倍 的 基因 算 作 差 异 表达 基因 ， 输 出 到 五 个 不 同 的 文件 。 

out<-foldFilt(eset,fold=1,groups=1:6,comps=list(c(1,2),c(1,3),c(2,4),c(3,4),c(5,6)),compNames, 
text=T,html=F,save=T,filterfun=fltl); 


例 5-23 主要 完成 从 六 个 CEL 文件 中 提取 六 个 样品 的 基因 (实际 上 是 探 针 组 ) 表 达 和 矩阵 ， 
注释 所 有 的 基因 ， 并 选取 五 组 对 比 中 的 差异 表达 基因 【〈 见 表 5-3)。 整 个 程序 包括 两 次 输出 : 
第 一 次 输出 输出 的 是 基因 表达 和 矩阵 (包括 其 他 数据 库 的 注释 ，)， 存 于 文件 
Expression_table.xls; 第 二 次 根据 五 次 对 比 ， 输 出 五 个 独立 的 文件 ， 存 放 每 次 对 比 的 差异 表 
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达 基 因 。 差 异 表达 基因 的 输出 文件 的 名 称 来 自 表 5-3 中 第 2 列 ， 它 还 包括 了 每 个 差异 表达 
基因 (实际 上 是 探 针 组 ) 的 GO 和 Pathway 注释 信息 ， 值 得 注意 的 是 ， 其 中 有 一 列 倍数 变化 
(Fold Change) 实际 上 应 该 是 以 2 为 底 对 数 化 后 的 倍数 ， 由 于 ВМА 算法 得 到 的 是 已 经 对 数 
化 的 数值 ， 因 此 整个 倍数 变化 ， 实 际 上 就 是 两 个 对 比 样品 表达 值 之 差 。 


例 5-24: 

# GO 的 三 个 领域 ， 这 里 三 个 领域 分 开 注释 。 

go_domains <- с('ВР','СС','МЕ”); 

# 提取 所 有 探 针 组 对 应 的 GO 信息 ， 没 有 GO 注释 的 记录 为 FALSE. 

no_go <- sapply(mget(affy_IDs, hgul33plus2GO), function(x) if(length(x) == 1 && 
is.na(x))TRUE else FALSE); 

# 提取 所 有 有 GO 注释 的 探 针 组 。 

affy_IDs <- affy_IDs[!no_go]; 

# 提取 所 有 探 针 组 对 应 的 "EntrezGene"， 并 去 除 重 复 记录 。 

all_probes <- unique(getEG(affy_IDs, "hgul33plus2")); 

# 提取 对 比 1 和 对 比 4 之 间 ， 对 比 2 和 对 比 3 之 间 的 差异 表达 探 针 组 ， 以 及 对 比 5 的 
差异 表达 探 针 组 。 

sig_probes.temp <- list(names(which(abs(out[[2]][,1])==1 & abs(out[[2]][,4])==1)), 

names(which(abs(out[[2]][,2])==1 & abs(out[[2]][,3])==1)), 
names(which(abs(out[[2]][,5])==1))); 

# 定义 结果 文件 的 名 称 。 

fnames <- c('common probesets for monolayer vs Sphere , соттоп probesets for ЕСЕР vs 
С0147',МІАРаСа 2_NC vs МЇАРаСа_2_Аб'); 

# 每 次 循环 处 理 一 次 超 几何 检验 ， 来 根据 差异 表达 基因 做 GO 的 富 集 。 

for(i іп 1:3){ 

sig_probes=unique(getEG(sig_probes.temp[[i]][sig_probes.temp[[i]]%in%affy_IDs], 
"hgu133plus2")); 

for(j іп 1:3){ 

# 设 定 超 儿 何 检验 参数 。 

params=new("GOHyperGParams",genelds=sig_probes,universeGenelds=all_probes,conditional 
= TRUE,annotation = annotation(eset), ontology = go_domains[j],pvalueCutoff=.01); 

# 超 几 何 检验 。 

hypt = hyperGTest(params); 

# 输出 html 格式 的 报告 文件 。 

htmlReport(hypt, digits=8, file=paste(fnames[i],'_',go_domains[j],'.html',sep=")); 

} 

} 

例 5-24 主要 完成 找到 对 比 1 和 4 之 间 、 对 比 2 和 3 之 间 共 同 的 差异 表达 基因 ， 对 比 5 
的 差异 表达 基因 , 并 对 三 组 差异 表达 基因 做 注释 和 GO 富 集 分 析 。 每 组 数据 输出 三 个 HTML 
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格式 的 报告 文件 ， 分 别 对 应 GO 三 个 领域 的 富 集 分 析 的 结果 ， 该 文件 内 容 请 看 例 5-15 有 详 
细 介 绍 。 由 于 Pathway 分 析 ， 特 别 是 Pathway 的 显示 要 占用 较 大 内 存 资源 ， 必 须 在 Linux 服 
务 器 上 运行 ， 考 虑 到 很 多 初学 者 使 用 的 是 Windows 系统 ， 这 里 不 再 提供 这 部 分 程序 代码 。 
另外 , 对 于 对 比 得 到 的 差异 表达 基因 , 本 研究 也 使 用 了 一 个 医学 领域 最 常用 的 IPA (Ingenuity 
pathways analysis system) 软件 进行 了 下 游 分 析 〈 功 能 注释 、 通 路 和 网 络 )， 对 生物 信息 有 兴 
趣 的 读者 可 以 尝试 一 下 。 
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本 书 2.3 讲 到 了 基因 表达 数据 主要 来 自 基 因 芯 片 和 RNA-seq， 前 者 可 以 说 是 
Bioconductor 的 起 源 ， 因 此 在 第 五 章 详 细 讲 解 ， 而 RNA-seq 是 当前 基因 表达 分 析 的 热点 技 
术 ， 其 发 展 迅速 ， 大 有 取代 基因 芯片 之 势 ， 因 此 在 第 六 章 详细 讲解 。 由 于 RNA-seq 涉及 新 
的 知识 点 较 多 ， 为 了 避免 讲解 空洞 ， 本 章 用 一 个 已 发 表 的 实际 课题 来 贯穿 整个 章节 ， 使 读 
者 更 准确 地 掌握 RNA-seq 数据 处 理 方 面 的 知识 。 

本 章 学 习 之 前 ， 读 者 需要 仔细 阅读 本 书 2.2 和 2.3， 并 详细 了 解 高 通 量 测序 和 基因 表达 
分 析 两 部 分 内 容 。 本 章 内 容 安排 : 6.1 首先 介绍 示例 课题 ，6.2 介绍 高 通 量 测序 基础 知识 ; 
63 分 析 了 RNA-seq 技术 的 特点 ;6.4 是 RNA-seq 数据 预 处 理 ， 重 点 在 质量 控制 ，6.5 是 
RNA-seq 数据 分 析 , 重点 在 基因 表达 差异 的 显著 性 分 析 。 由 于 lumina 测序 仪 在 第 二 代 测 序 
技术 中 的 压倒 性 优势 ， 本 章 乃 至 本 书 所 有 举例 将 集中 于 lumina 测序 仪 。 


6.1 示例 课题 介绍 


6.1.1 课题 背景 


菊花 (学 名 Chrysanthemum morifolium)， 多 年 生 菊 属 菊 科 草 本 植物 ， 是 经 长 期 人 工 选 
择 培育 的 名 贵 观赏 花卉 ， 其 品种 达 3000 余 种 。 菊 花 是 一 种 多 来 源 的 ， 通 过 长 期 的 定向 人 工 
选择 〈 主 要 是 取 其 观赏 价值 ) 的 杂种 混合 体 ， 其 染色 体 是 4 倍 体 (2n 二 4X =36) 或 6 Ж 
(2n 王 6X 三 54)， 菊 花 基 因 组 估计 有 9.6 Gb， 但 是 目前 还 没有 测序 。 研 究 表明 ， 干 时 是 导致 
菊花 减产 的 主要 原因 。 徐 彦 杰 和 高 山 等 品 利 用 高 通 量 转录 组 测序 (RNA-seq)， 鉴 定 了 一 组 
菊花 脱水 胁迫 下 差异 表达 的 基因 ， 并 结合 基因 本 体 论 和 代谢 通路 等 分 析 ， 为 进一步 研究 菊 
花 的 抗旱 机 制 提 供 了 线索 。 


6.1.2 数据 集 和 处 理 过 程 


处 理 组 和 对 照 组 两 组 样品 各 有 三 次 生物 学 重复 ， 一 组 样品 经 过 脱水 处 理 3 小 时 ， 另 外 
一 组 样品 作为 对 照 不 经 过 任何 处 理 。 每 个 样品 分 别 进 行 100 bp 和 51 bp 单 端 链 特异 性 
(Strand-specific) 测序 。 最 后 ， 处 理 组 得 到 100 bp 数据 3 个 〈TL、T2 和 T3) 和 51 bp 数据 
3 个 〈T1-1、T2-1 和 T3-1) ; 对 照 组 得 到 100 bp 数据 3 个 (CK1、CK2 和 CK3) 和 51 bp 
数据 3 个 (CK1-1、CK2-1 和 CK3-1)。51 bp 的 数据 与 100 bp 数据 一 一 对 应 ， 可 以 看 作 同 一 
个 样品 的 两 次 技术 重复 。 所 有 原始 数据 (Raw data) 以 Fastq 格式 文件 提交 到 NCBI SRA 
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(Sequence Read Archive) 数据 库 ， 数 据 集 编 号 SRA091277， 每 个 数据 都 有 自己 的 RUN 编号 
( 表 6-1)。 还 可 以 登录 网 站 (http://www.icugi.org/chrysanthemum) 下 载 转录 组 数据 和 相关 的 


分 析 结 果 。 原 始 数 据 获 取 、 数 据 清 理 、 质 量 控 制 、 转 录 组 拼接 、 转 录 本 定量 、 


达 差 异 分 析 等 过 程 将 在 下 文 分 别 详细 介绍 。 


样品 名 称 


样品 描述 

Т1 处 理 组 (脱水 处 理 3 小 时 ) 

T2 处 理 组 (脱水 处 理 3 小 时 ) 

T3 处 理 组 (脱水 处 理 3 小 时 ) 
Т1-1 处 理 组 (脱水 处 理 3 小 时 ) 
T2-1 处 理 组 (脱水 处 理 3 小 时 》 
T3-1 处 理 组 (脱水 处 理 3 小 时 ) 
СКІ 对 照 组 (不 做 任何 处 理 ) 
CK2 对 照 组 (不 做 任何 处 理 ) 
CK3 对 照 组 (不 做 任何 处 理 ) 
CK1-1 对 照 组 (不 做 任何 处 理 ) 
СК2-1 对 照 组 (不 做 任何 处 理 ) 
CK3-1 对 照 组 (不 做 任何 处 理 ) 


6.2 ”高 通 量 测序 基础 知识 


6.2.1 高 通 量 测序 原理 


RUN 编号 
SRR921340 
SRR921341 
SRR921342 
SRR921346 
SRR921344 
SRR921345 
SRR921321 
SRR921322 
SRR921324 
SRR921336 
SRR921337 
SRR921338 


示 准 化 和 表 


表 6-1 菊花 转录 组 样品 


测序 长 度 


100 bp 
100 bp 
100 bp 
51 bp 
51 bp 
51 bp 
100 bp 
100 bp 
100 bp 
51 bp 
51 bp 
51 bp 


ЖЖ 2.2 简单 介绍 了 测序 和 第 二 代 《〈 高 通 量 ) 测序 ， 以 及 基于 第 二 代 测 序 而 建立 起 来 的 
基因 组 测序 、RNA-seq 和 small RNA-seq 等 应 用 。 这 些 应 用 都 由 样品 收集 、 文 库 制备 和 测 
序 三 个 过 程 组 成 , 不 同 之 处 在 于 样品 收集 和 文库 制备 。 图 6-1 是 制备 一 个 链 特 异性 RNA-seq 
文库 的 基本 步骤 趾 。 链 特 异性 建 库 后 再 测序 , 简称 链 特 异性 测序 , 可 以 确定 转录 本 来 自 DNA 
的 哪 条 链 ， 以 便 更 加 准确 地 获得 基因 的 结构 以 及 基因 表达 信息 。 而 且 还 可 以 发 现 诸如 重 炙 
基因 (Overlap gene) 和 反 义 基因 (Antisense репе) 等 重要 的 生命 现象 。Levin 等 中 在 比较 分 
析 当 前 主要 的 几 类 链 特异 性 测序 方法 后 ， 推 荐 了 dUTP 链 特异 性 测序 方法 。 图 6-1 中 即 是 
费 章 军 等 外 提出 的 一 种 dUTP 链 特异 性 测序 方法 , 它 的 特点 是 廉价 高 效 ， 且 经 过 了 几 百 次 以 


上 试验 的 测试 。 
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АААЛЛЛАЛАЛАЛЛЛЛЛЛАЛЛАЛЛЛАААА(А)п 
mRNA 富 集 与 片段 化 
(1 小 时 ) 
AANU uvurvuvwn 
NV АЛАЛ 


1 jdNTP 反 转录 及 cDNA 
纯化 〈1.5 小 时 ) 
/ХХХХХХХХХХХХХХХ\. 
用 dUTP 合 成 cDNA 第 二 
链 及 DNA 纯 化 (3 小 时 ) 
N000000000000000 
末端 修补 、 寡 聚 dA 加 尾 连 
接 及 接头 连接 (4 小 时 
消化 含有 dUTP) 的 第 二 
链 ，PCR 富 集 产物 (1 小 时 ) 
一 000000000000C 一 
ОООО 
图 6-1 ”RNA-seq 文 库 制备 过 程 ( 见 彩 图 ) 


B RWF lumina) 要 测 的 序列 ， 无 论 是 来 自 DNA-seq 文库 还 是 КМА-ѕед 文库 ， 
自 左 向 右 依次 分 为 3 个 区 : 5 接头 〈Adapter) 区 、 目 标 序列 区 〈 见 图 6-2 黄色 区 域 ) 和 3， 
接头 〈Adapter) 区 。 对 于 多 个 样品 在 一 个 泳 道 〈Lane) 中 同时 测序 的 情况 ， 可 以 使 用 多 样 
品 (Multiplex) 技术 ， 有 具体 来 说 就 是 每 个 样品 分 配给 一 个 不 重复 的 条 形 码 (Barcode)， 实 际 
上 是 一 个 6 到 8 位 的 DNA 序列 , 测序 后 , 用 这 个 条 形 码 可 将 不 同样 品 分 开 。 图 6-2 +, “51” 
序列 是 正 向 测序 的 引物 ， 下 一 个 残 基 对 应 正 向 测序 得 到 的 序列 的 第 一 个 位 置 ;“S2” 序 列 是 
反 向 测序 的 引物 ， 下 一 个 残 基 对 应 反 向 测序 得 到 的 序列 的 第 一 个 位 置 。 单 端 〈Single епа) 
测序 指 的 是 仅 从 “S1” 开 始 测 ; Min (Paired епа) 测序 指 的 是 先 从 “S1” 开 始 测 ， 再 从 “S2” 
开始 测 ; Barcode 是 根据 引物 “Sb” 独 立 测序 得 到 的 。 理 论 上 ， 由 于 制备 的 RNA-seq 文库 插 
入 长 度 (Insert length) 的 峰值 常常 是 200 bp 或 300 bp， 测 序 应 该 只 得 到 文库 中 目标 序列 从 
5" 端 开始 的 部 分 片段 。 但 是 文库 中 会 有 少量 目标 序列 不 到 测序 长 度 〈 如 100 bp)， 对 于 这 些 
序列 ， 测 序 可 能 会 测 到 3” 端 接头 序列 ， 这 就 是 所 谓 的 接头 污染 。 数 据 预 处 理 时 ， 如 果 发 现 
接头 序列 过 多 ， 一 般 是 RNA-seq 文库 插入 长 度 没 有 控制 好 ;如 果 出 现 大 量 全 长 的 3 接头 ， 
一 般 是 接头 过 量 ， 导 致 了 大 量 接头 自 连 〈Self ligation). 


w 


SL: 正 向 测序 引物 ，S2: 反 向 测序 引物 ，Sb: Barcode 测 序 引物 


图 6-2 ” 待 测序 列 的 结构 ( 见 彩 图 ) 
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Ilumine 2000 测序 仪 中 ， 一 次 运行 (Run) 可 以 使 用 2 个 流动 槽 〈Flow cell)， 每 个 流 
动 槽 包括 8 个 泳 道 (Lane)， 一 个 泳 道 包含 2 个 面 〈Surface)， 每 个 面 还 有 3 个 条 (Swath) 
也 叫 列 〈Column)， 每 一 列 由 16 个 小 区 (Tie) 组 成 ， 后 者 又 由 大 量 DNA # (Cluster) 
组 成 。Ilumine 2000 测序 仪 每 次 运行 〈 单 端 测序 ) 理论 上 可 以 产生 大 约 3 000 000 000 个 
DNA Ж, FA ОМА 艇 理论 上 可 以 产生 一 条 读 段 (Read)， 如 果 测 序 长 度 是 100 bp， 一 次 
运行 就 可 以 得 到 зс 个 读 段 ， 其 原始 数据 量 为 300G 个 碱 基 ; 如 果 是 双 端 测序 ， 可 以 得 到 2 
倍 的 原始 数据 量 〈600G)， 测 序 时间 大 概 是 11 天 。 但 是 由 于 实际 测序 过 程 中 产生 的 DNA 
簇 的 分 布 不 是 均匀 的 ， 技 术 人 员 会 控制 文库 的 上 样 量 来 适量 减少 反应 生成 的 ОМА Ж, A 
便 得 到 清晰 可 辨 的 荧光 点 来 确保 测序 读 段 的 质量 。 目 前 ,llumine 2000 测 序 读 长 达到 100 bp 
时 ，80% 以 上 的 碱 基 可 以 达到 Q30 质量 指标 〈 见 6.2.2); 测序 读 长 50 bp 时 ，Q30 可 以 达 
到 85%。 实 际 应 用 中 (例如 估计 测序 深度 ) 使 用 更 多 的 是 达到 质量 标准 的 有 效 数据 量 ， 而 
不 是 原始 数据 量 。RNA-seq 有 效 数 据 比例 过 低 时 (如 Q20 低 于 60% 时 )， 无 法 检测 一 些 低 
丰 度 的 转录 本 ， 要 考虑 重新 测序 。 

测序 深度 (Sequencing depth) ， 也 叫 乘 数 ， 指 每 个 碱 基 被 测序 的 平均 次 数 ， 是 用 来 衡量 
测序 量 的 首要 参数 。 测 序 覆 盖 度 (Coverage) ， 也 叫 覆 盖 率 ， 指 被 测序 到 的 碱 基 占 全 基因 组 
大 小 的 比率 。 假 如 用 lumine 2000 测序 仪 完成 一 次 人 类 基因 组 〈3G 大 小 ) 单 端 测序 ， 即 
可 得 到 300G 数据 (假设 全 部 是 有 效 数据 )， 估 计 的 测序 深度 即 为 100 倍 (300G/3G) › Ж 
见 表示 为 100X。 将 所 有 读 段 比 对 到 人 类 基因 组 ， 如 果 发 现 只 有 2.7G 的 碱 基 至 少 有 1 个 读 
段 覆 盖 到 ， 其 实际 测序 深度 即 为 111Х(3006/2.76), WA MJE (Coverage) 为 90% 
(2.7G/3G)。 测 序 深 度 在 某 些 文章 中 也 称 作 Coverage 或 Coverage depth， 而 覆盖 度 也 可 以 
称 作 Coverage ratio， 测 序 深度 和 覆盖 度 不 是 一 个 概念 。 

不 同 的 测序 目的 要 使 用 不 同 的 测序 策略 。 如 ОМА 组 装 使 用 较 多 的 是 2X 100 bp 或 更 
长 的 双 端 测序 ;RNA-seq 使 用 较 多 的 是 100 bp 或 更 长 的 单 端 链 特 异性 测序 ; small RNA-seq 
多 用 50 bp 单 端 测序 。small RNA-seq 理论 上 可 以 和 RNA-seq 一 起 测 , 但 是 Small RNA tk 
较 短 ，PCR 扩 增 倍数 多 ， 占 用 了 很 多 本 该 属于 mRNA 测序 的 资源 ， 而 它们 本 身 又 用 不 完 
50 bp 以 上 的 读 长 ， 会 造成 很 大 浪费 。 

从 测序 得 到 的 读 段 组 装 成 目标 基因 组 或 者 转录 组 的 基本 策略 是 比 对 和 拼接 , 前 者 是 把 
读 段 定 位 到 参考 基因 组 或 者 转录 组 上 , 然后 再 拼接 成 连续 序列 ; 后 者 也 叫做 从 头 组 装 (De 
novo assembly)， 是 在 没有 参考 基因 组 或 者 转录 组 前 提 下 ， 根 据 读 段 之 间 的 重合 区 ， 把 所 
有 读 段 拼接 起 来 , 直接 获得 基因 组 或 者 转录 组 。 转 录 组 比 对 常用 的 软件 有 BWA'”、Bowtiel” 
和 Tophat; 拼接 常用 的 软件 是 Trinity. K 6-3 是 两 种 组 装 策略 的 原理 示意 图 上 。 
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图 6-3 ”转录 组 的 比 对 和 拼接 


基因 组 和 转录 组 从 头 组 装 的 不 同 点 在 于 : 基因 组 组 装 希望 尽量 获得 唯一 或 者 较 少 的 组 
装 结果 ， 即 一 致 性 序列 〈Consensus sequence )。 一 致 性 序列 上 并 不 是 每 个 位 点 都 只 有 一 种 碱 
基 ， 它 实际 上 只 代表 该 位 点 出 现 频率 最 高 的 碱 基 ， 有 两 种 以 上 碱 基 的 位 点 叫做 杂 合 位 点 。 
转录 组 组 装 要 在 获取 一 致 性 序列 的 同时 尽量 保持 序列 的 多 样 性 信息 ， 过 分 地 追求 一 致 性 会 
导致 过 拼接 ， 即 来 自 不 同 基因 的 相似 序列 〈 如 同 源 基因 ) 被 误 拼 接 到 一 起 。 基 因 组 和 转录 
组 组 装 可 以 用 一 个 非常 重要 的 指标 N50 来 评价 ， 即 将 所 有 组 装 后 的 序列 按照 长 度 从 大 到 小 
排列 ， 累 加 值 接近 所 有 序列 长 度 总 和 一 半 时 的 那个 位 置 对 应 的 序列 长 度 。N50 越 大 ， 组 装 
的 结果 越 好 ， 类 似 的 指标 还 有 N90。 

外 显 子 组 测序 СЕхоте-ѕед) 和 转录 组 测序 都 可 以 对 基因 组 上 的 蛋白 质 编 码 区 域 进行 测 
序 ， 但 是 两 者 还 是 有 很 多 不 同 。 也 目标 区 域 不 同 。 外 显 子 组 测序 只 能 检测 基因 组 上 的 已 知 
编码 区 (有 注释 的 ) 而 不 能 检测 未 知 编码 区 或 者 非 编 码 区 ; 而 转录 组 测序 不 仅 能 检测 所 有 
编码 区 , 还 能 检测 非 编 码 RNA 等 其 他 信息 ,样本 处 理 手段 不 同 。 外 显 子 组 测序 需要 用 DNA 
捕获 技术 来 富 集 目标 区 域 的 序列 ; 而 转录 组 测序 需要 提取 总 КМА 后 富 集 mRNA。@@ 分 析 手 
段 不 同 。 外 显 子 组 测序 只 需 将 测序 数据 比 对 到 基因 组 上 ; 而 转录 组 测序 既 可 以 进行 比 对 ， 
也 可 以 进行 从 头 拼接 。@ 获 得 的 信息 不 同 。 外 显 子 组 测序 一 般 侧重 获取 序列 的 点 突变 或 小 
片段 变异 信息 ; 而 转录 组 测序 可 以 获取 更 大 区 域 的 变异 信息 ， 如 mRNA 的 可 变 前 切 等 。 
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6.2.2 测序 的 质量 分 数 


(1) Phred 分 数 


测序 中 ， 常 用 错误 概率 P。(Error probability) 来 表示 每 个 核 苷 酸 测量 的 准确 性 ， 还 可 以 
赋予 一 个 数值 来 更 简便 地 表示 这 个 意思 ， 这 个 数值 就 叫做 测序 质量 分 数 Quality ѕсоге). H 
于 这 个 分 数 最 开始 是 通过 Phred 软件 从 测序 仪 生成 的 色谱 图 中 得 到 的 , 所 以 也 叫做 Phred 分 
数 (Ора) Phred 分 数 可 以 根据 下 面 公式 6-1 从 P。 中 求 得 。 Phred 分 数 的 取 值 范围 是 0 到 
93， 可 以 表示 很 宽 的 误差 范围 ， 即 从 1 (完全 错误 ) 到 非常 低 的 错误 率 1079, Phred 分 数 
是 最 基本 的 质量 分 数 ， 其 他 的 质量 计 分 标准 都 来 自 于 Phred 分 数 CR 6-2). 


Qa = —10 x 1ogioP. 公式 6-1 


表 6-2 质量 分 数 与 碱 基 错 误 概率 的 关系 


ра Р. Base call accuracy 
0 1 0 

10 0.1 0.9 

20 0.01 0.99 

30 0.001 0.999 

40 0.0001 0.9999 

50 0.00001 0.99999 


(2) Sanger 分 数 (Phred+33) 


由 于 Phred 分 数 包括 2 位 数字 ， 还 需要 用 空格 分 隔 ， 既 不 方便 阅读 ， 又 要 占用 大 量 存储 
空间 , 因此 在 实际 文件 中 不 采用 Phred 分 数 来 表示 数据 的 质量 。 为 了 在 文件 中 方便 地 表示 质 
量 ,常常 将 Phred 分 数 加 上 33, 并 用 其 ASCI 码 值 对 应 的 字符 表示 , 这 就 是 Sanger 分 数 (Sanger 
score)。Sanger 分 数 从 33 到 126 对 应 Phred 分 数 从 0 到 93， 其 ASCH 码 值 对 应 的 字符 正好 
覆盖 了 可 打印 区 , 并 跳 过 了 空格 CASCI 码 32)。Sanger 分 数 常 用 于 FASTQ 格式 的 文件 ( 见 
6.2.3). 


(3) Шотіпа/ЅоІеха 分 数 (Phred+64) 


2004 年 ，Solexa 测序 仪 定义 了 自己 的 质量 分 数 , 并 成 为 了 另外 一 种 FASTQ 文件 常用 分 
数 ， 它 与 Phred 分 数 之 间 的 转换 关系 见 下 面 几 个 公式 : 


О; = – 00р L, ) 公式 6-2 
Оаа = 10х logio (1 рен == 1) 公式 6-3 


О. =10Xl0g (1089 +1) 公式 6-4 
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Solexa 分 数 的 取 值 范围 是 -5 到 62， 它 在 FASTQ 文件 中 ， 需 要 加 上 64， 并 转换 为 相应 
ASCI 码 值 (59 到 126) 对 应 的 字符 来 表示 质量 (K 6-3 中 第 2 行 ) 2006 £, Ilumina 公 
司 收购 Solexa 公司 后 ， 继 续 沿 用 Solexa 的 标准 。 从 Genome Analyzer Pipeline version 1.3 之 
后 , Шитіпа 采用 新 的 标准 (lluminal.3+), 这 个 标准 采用 了 Phred 分 数 ( 取 值 范围 是 0 到 62) 
加 上 64 的 质量 分 数 ， 并 转换 为 相应 ASCII 码 值 对 应 的 字符 来 表示 ( 表 6-3 中 第 3 行 )。 
Iluminal.5+ 标 准将 Ilumina 分 数 2 以 下 ， 统 一 表示 为 字母 B， 含 义 不 再 是 具体 分 数 ， 而 是 

-个 读 段 的 末端 ， 即 这 段 区 域 质量 很 差 ， 以 至 于 不 能 用 于 任何 分 析 。 虽 然 各 种 质量 分 数 系 
统 都 提供 了 非常 大 的 取 值 范围 , 但 是 当前 的 技术 水 平 决定 了 Phred 分 数 的 实际 取 值 范围 仍旧 
是 0 到 40， 仅 有 Juminal.8+ 例 外 ， 它 的 分 数 范围 是 0 到 41. 


表 6-3 各 种 分 数 类 型 的 取 值 范围 


ОВЕ пате Offset 取 值 范围 ASCI I* 实际 范围 ASCI I# 
Sanger 33 0-93 33—126 0-40 33—73 
Solexa 64 -5~62 59-126 -5~40 59—104 

Hluminal.3+ 64 0—62 64—126 0-40 64—104 
Шитїпа1.5+ 64 0—62. 64—126 3-40 67-104 
Tlluminal.8+ 64 0~62 64—126 0-41 67-105 


注 : ОВЕ name 表示 ОВЕ 项 目的 命名 ; “ 取 值 范围 ”是 指 该 系统 可 以 表示 的 Phred 分 数 的 取 值 范围 ; “ 实 
际 范 围 ” 表 示 实 际 的 “ 取 值 范围 ?; “*” 表 示 “ 取 值 范围 ”对 应 的 ASCI 码 的 值 ; “#” 表示 “实际 范围 ” 
对 应 的 ASCII 码 的 值 


Sanger 分 数 (Phred+33) 和 Шитіпа 分 数 (Phred+64) 是 当前 应 用 最 为 普遍 的 质量 分 数 
系统 。 这 里 介绍 一 个 简单 的 方法 从 FASTQ 文件 中 直接 看 出 质量 分 数 的 种 类 : 由 于 Phred 分 
数 范 围 是 0 到 40， 对 应 Sanger 分 数 (Phred+33) 33 到 73， 其 ASCI 码 对 应 标点 符号 、 数 
字 和 部 分 大 写字 母 (图 6-4 中 红色 部 分 和 紫色 部 分 )， 因 此 Sanger 分 数 中 看 不 到 小 写字 母 ， 
ТІН. ЛЕРА Н 以 后 的 大 写字 母 。 同 理 ，Illumina 分 数 (Phred+64) 对 应 大 写字 母 和 部 分 
小 写字 母 〈 见 图 6-4 中 紫色 部 分 和 蓝 色 部 分 )， 因 此 Шипїпа 分 数 中 经 常 出 现 小 写字 母 而 且 
几乎 不 出 现 h 以 后 的 小 写字 母 。 图 6-4 紫色 部 分 代表 Sanger 分 数 和 Ilumina 分 数 都 包含 的 

以 Phred 二 20〈 即 常见 的 Q20 标准 ) 情况 为 例 ， 其 Sanger 分 数 (Phred+33) 为 53， 对 
应 图 6-4 中 数字 5; 其 Ilumina 分 数 (Phred+64) 为 84， 对 应 图 6-4 中 字母 T。Bioconductor 
中 的 ShortRead 包 提供 了 SolexaQuality 和 PhredQuality 函数 分 别 生成 Шипїпа 分 数 和 Sanger 
分 数 〈 见 例 6-1)。 


例 6-1: 

# 安装 并 加 载 所 需 及 包 
source('http://Bioconductor.org/biocLite.R'); 
biocLite("ShortRead") ; 

library(ShortRead); 

Q=20; 
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# 计算 О 的 Sanger 分 数 (Phred+33)。 
PhredQuality (as.integer(Q)); 

# 计算 Q Шшшпа 分 数 (Phred+64)。 
SolexaQuality(as.integer(Q)); 


ASCA | 控制 字符 | Ascn 值 | 控制 字符 | act | 控制 字符 | asot НЕ ЕУ 

0 NUT 32 (space) 64 | @ | = 

1 SOH 33 А | 97 

2 STX 34 98 

3 ETX 35 99 

4 EOT 36 100 

5 ENQ 37 101 

6 ACK 38 102 

7 BEL 39 103 

8 85 40 104 

9 HT 41 105 | 
10 LF 42 106 j 
11 үт 43 107 k 
12 FF 44 108 | 
13 CR 45 109 т 
14 SO 46 110 п 
15 5! 47 111 0 
16 DLE 48 112 p 
17 DCi 49 113 | 
18 DC2 50 114 г 
19 DC3 51 115 5 
20 DC4 52 116 t 
21 NAK 53 117 u 
22 SYN 54 118 v 
23 TB 55 119 w 
24 CAN 56 120 x 
25 EM 57 121 y 
26 SUB 58 122 2 
27 ESC 59 123 { 
28 FS 60 124 | 
29 65 61 125 } 
30 85 62 126 ~ 
31 US 63 127 DEL 


图 6-4 质量 分 数 ASC11 码 取 值 范围 ( 见 彩 图 》 
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6.2.3 高通 量 测序 文件 格式 
(1) FASTQ 格式 


FASTQ 格式 是 序列 文件 中 常见 的 一 种 。 由 于 FASTO 格式 最 早 应 用 于 Sanger WF, 
此 也 称 为 FASTQ-Sanger 文件 格式 钻 ， 它 最 早 采 用 的 是 Sanger 分 数 (Phred+33)。 下 面 是 一 
个 标准 的 FASTQ 格式 文件 〈 只 有 一 个 读 段 ) 的 实例 。 


例 6-2: 

@HWUSI-EAS100R:123:COEPYACXX:6:73:941:1973#0/1 

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACA 
GTTT 

+ HWUSI-EAS100R:123:COEPYACXX:6:73:941:1973#0/1 

!"*((((***-))%%6%-++)(%%%%).1***-+*"уу**55ССЕ>»>>>>>СССССССб65 


FASTQ 格式 的 文件 一 般 都 包括 四 部 分 : 第 一 部 分 是 由 “@ ”开始 ， 后 面 跟着 序列 的 描 
述 信息 〈 对 于 高 通 量 数据 ， 这 里 是 读 段 的 名 称 )， 这 点 跟 FASTA 格式 是 一 样 的 ， 第 二 部 分 
是 ОМА 序列 ， 第 三 部 分 是 由 “+” 开 始 ， 后 面 或 者 是 读 段 的 名 称 ， 或 者 为 空 ， 第 四 部 分 是 
DNA 序列 上 每 个 碱 基 的 质量 分 数 ， 每 个 质量 分 数 对 应 一 个 ОМА 碱 基 ( 表 6-4)。 


表 6-4 FASTQ 文件 中 读 段 的 名 称 含义 一 


代码 代表 意义 
HWUSI-EAS100R Illumina 测序 仪 编号 
123 流动 槽 编号 
COEPYACXX 流动 槽 名称 
6 代表 流动 槽 中 的 第 6 个 泳 道 
73 第 6 个 流动 槽 中 的 第 73 个 小 区 
941 对 应 的 DNA 簇 在 这 个 小 区 内 的 x 轴 坐 标 信息 
1973 对 应 的 ОМА 簇 在 这 个 小 区 内 的 y 轴 坐 标 信息 
#0 混 样 测序 时 的 样品 编号 ，0 表示 没有 混 样 


自 Ilumina pipeline 1.4 后 ， 读 段 的 名 称 中 用 条 形 码 (barcode, 也 称 index) 序列 
#ММММММ 替换 了 #0， 以 用 户 更 方便 使 用 这 个 信息 。 当 Casava 1.8 lumina 提供 的 数据 处 
理 软件 ) 出 现 后 ， 读 段 的 名 称 发 生 了 较 大 的 格式 变动 ， 并 提供 了 更 为 丰富 的 信息 。 请 看 下 
面 的 一 个 例子 : @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG。 

K 6-5 新 增加 的 信息 中 ， 过 滤 标 志 位 (Filter Пар) 和 内 人 参 标 志 位 〈Control bit) 对 数据 
的 质量 控制 和 处 理 提 供 了 非常 有 价值 的 信息 。 通 过 用 户 指定 数据 过 滤 规 则 ， 由 数据 处 理 软 
件 〈 例 如 CASAVA 1.8) 对 这 个 读 段 设 定 过 滤 标 志 位 ， 如 果 该 数据 需要 过 滤 掉 就 是 Y， 否 则 
是 N《〈 表 示 需 要 保留 这 个 读 段 )。 如 果 该 读 段 是 内 参 (通常 是 рых 基因 组 )， 需 要 设 定 内 参 
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标志 位 ， 它 实际 上 是 一 个 16 位 二 进 制 数字 ， 但 是 通常 表示 为 十 进 制 数 ， 各 二 进 制 位 的 含义 
见 表 6-6。 


Ж 6-5 FASTQ 文件 中 读 段 的 名 称 含义 二 


代码 ЕЧ 代表 意义 
EAS139 Ilumina 测序 仪 编号 

136 运行 的 编号 
ЕС706УЈ 流动 槽 编号 

2 泳 道 编号 
2104 小 区 编号 

15343 所 在 ОМА 簇 在 这 个 小 区 内 的 x 轴 坐 标 信息 
197393 所 在 DNA 入 在 这 个 小 区 内 的 y 轴 坐 标 信息 
1 如 果 是 双 端 测序 或 者 配对 测序 (Mate-Pair)， 表 示 哪 一 端 
Ү 过 滤 标 志 位 

18 内 参 标志 位 
ATCACG 混 样 测序 时 的 条 形 码 序列 


表 6-6 内参 标志 位 的 各 字段 含义 
二 进 制 位 代表 意义 
不 用 ， 置 0 
是 否 是 рих 
是 否 匹配 不 确定 碱 基 
是 否 匹 配 phiX 标签 
是 否 比 对 了 phiX 标签 
是 否 匹 配 phiX 的 条 形 码 序列 
不 用 
不 用 
8~15 内 参 文件 中 匹配 记录 对 应 的 键 


м с л Бо мыо н о 


Bioconductor 中 的 ShortRead 包 提 供 了 quality 函数 可 以 自动 识别 FASTQ 文件 中 的 质量 
分 数 的 种 类 。 例 6-3 就 是 把 例 6-2 中 的 质量 分 数 一 行 字符 全 部 转换 为 Phred 分 数 , 读者 可 以 
尝试 分 别 用 SolexaQuality 和 PhredQuality 函数 将 其 反 转 回 Шитіпа 分 数 和 Sanger 分 数 。 


例 6-3: 

# 加 载 所 需 R 包 (前 面 已 经 安装 )。 
library(ShortRead); 

# 更 换 工 作 目 录 。 


setwd("C:\\workingdirectory"); 
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# 读 入 FASTQ 文件 。 

reads <- readFastq("6-2.fastq"); 

# 得 到 质量 分 数 的 类 型 。 

score_sys = data.class(quality(reads)); 

# 得 到 质量 分 数 。 

qual <- quality(quality(reads)); 

# 质量 分 数 转 为 16 进 制 表示 。 

myqual_mat <- charToRaw(as.character(unlist(qual))); 
# 如 果 是 Phred+64 分 数 表示 系统 。 
if(score_sys=="SFastqQuality"){ 

# 显示 分 数 系统 类 型 。 

cat("The quality score system is Phred+64" ,"\n"); 
# 输出 原始 分 数值 。 

strtoi(myqual_mat, 16L)-64; 

} 

# 如 果 是 Phred+33 分 数 表示 系统 。 

if( score _sys=="FastqQuality") { 

# 显示 分 数 系统 类 型 。 

cat("The quality score system is Phred+33" ,"\n"); 
# 输出 原始 分 数值 。 

strtoi(myqual_mat, 16L)-33; 

} 


The quality score system is Phred+33 

ш 0 6 6 9 7 7 7 7 9 9 9 100 8 8 4 4 4 10 
[19] 10 8 7 4 4 4 4 8 з 16 9 9 9 12 10 9 6 6 
[37] 8 8 9 9 20 20 34 34 37 29 29 29 29 29 29 34 34 34 
[55] 34 34 34 34 21 20 


(2) NCBI 中 的 FASTQ 5 SRA 格式 


NCBI 的 Sequence Read Archive (SRA) 数据库， 接受 FASTQ 格式 的 高 通 量 数据 上 传 ， 
并 将 分 数 标准 从 开始 的 Шитіпа 分 数 转化 成 了 Sanger 分 数 。 而 且 ，NCBI 的 FASTQ 格式 与 
FASTQ-Sanger 格式 相 比 〈 例 6-4), 在 读 段 名 称 前 面 增加 了 数据 在 SRA 库 的 编号 和 版 本 (如 
SRR001666.1，1 是 版 本 信息 )， 后 面 增加 了 读 段 的 长 度 (“length”)。SRA 数据 库 为 了 节省 
存储 空间 ， 将 FASTQ 文件 压缩 为 二 进 制 的 SRA 格式 进行 保存 。 用 户 如 果 下 载 SRA 格式 的 
数据 ， 可 以 使 用 工具 软件 fastq-dump 将 数据 从 SRA 格式 转 回 FASTO 格式 〈 见 例 6-7)。 
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例 6-4: 

@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 
GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC 
+SRR001666.1 071112_SLXA-EAS1_s 7:5:1:817:345 length=36 
ПШШШШШШПИИПӘЇСӘ91С 


(3) QUAL 格式 文件 


Solid 测序 仪 产生 分 离 的 序列 文件 (CSFASTA 格式 ) 和 质量 文件 (QUAL 格式 )， 两 者 
必须 成 对 出 现 。QUAL 文件 采用 Phred 分 数 ， 而 且 行 必须 与 FASTA 文件 中 的 行 一 一 对 应 。 
CSFASTA 文件 与 FASTA 格式 看 似 相 同 ， 但 实际 上 不 同 ，Solid ЕНЕНЕ (ATCG) 
表示 序列 数据 ， 而 是 采用 了 颜色 空间 (Color space) 的 表示 方法 。Solid 的 序列 文件 如 果 和 
质量 文件 合并 ， 可 以 产生 CSFASTQ 格式 的 文件 ， 也 可 以 根据 颜色 编码 (图 6-5А) 转 为 真 
正 的 FASTQ 格式 的 文件 (图 6-5B)。 


А. В. 


[0 -> AA, GG, СС ТТ: >3 33 1 17_F5-BC 

1 -> CA, AC, TG, GT; a a 
с> 2 -> СА, ТС, АС, СТ; 

3->TA, GC, cG, AT) {3.33 117 Е5-ВС 


WAGTTAGGGATTT 


图 6-5 ” Solid 测序 仪 的 测序 编码 方式 


Solid 的 结果 文件 转 为 标准 FASTQ 格式 的 文件 需要 注意 两 个 问题 : 第 一 是 第 1 个 碱 基 
由 于 来 自 测序 引物 ， 必 须 删 除 〈 图 6-5B); 第 二 就 是 由 于 Solid 颜色 空间 的 编码 是 前 后 依赖 
的 ， 一旦 错 一 个 ， 会 导致 后 面 连续 错误 ， 一 般 都 将 参考 基因 组 反 转 为 颜色 空间 编码 再 进行 
比 对 等 分 析 ， 而 不 主张 将 Solid 的 结果 文件 直接 转换 为 FASTQ 文件 。 


6.3 RNA-seq 技术 的 特点 


6.3.1 ВМА-ѕед 对 世 片 的 优势 


RNA-seq 检测 基因 表达 主要 在 7 个 方面 比 基 因 芯片 有 优势 ( 表 6-7)。 首 先 ，RNA-seq 
不 同 于 基因 芯片 ， 检 测 转 录 本 不 需要 依赖 已 知 基因 组 或 转录 组 的 参考 序列 ( 见 5.2.1)。 
RNA-seq 可 以 通过 比 对 或 者 拼接 的 方法 СА, 6.5), 分 别 检测 有 参考 序列 和 无 参考 序列 的 转 
录 组 。 基 因 芯 片 的 最 主要 缺点 ， 就 在 于 它 是 一 个 “封闭 系统 ”， 只 能 检测 已 知 的 序列 或 有 
限 的 变异 ， 而 RNA-Seq 的 最 大 优势 ， 就 在 于 它 是 一 个 “开放 系统 ”， 能 发 现 和 寻找 新 的 信 
息 。 


А 
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表 6-7 RNA-seq 的 技术 优势 


基因 芯片 КМА-ѕед 

参考 序列 需要 不 需要 
动态 范围 小 大 

背景 噪声 大 小 

受降 解 影响 大 小 

序列 变异 无 法 检测 可 以 检测 
转录 组 方 问 不 能 确定 能 确定 
可 重复 性 一 般 高 


动态 范围 大 ， 是 RNA-seq 技术 的 第 二 大 优势 ， 它 最 低 可 以 检测 〈 即 灵敏 度 ) 到 总 RNA 
中 千 万 分 之 一 的 表达 量 ， 只 要 足够 的 测序 深度 ， 最 高 表达 量 不 受 限制 ; 而 蕊 片 由 于 非特 异 
性 杂交 带 来 的 噪声 ， 不 能 检测 低 丰 度 表达 的 转录 本 ， 而 且 ， 超 过 一 定 丰 度 ， 检 测 会 产生 饱 
和 现象 。 如 Affymetrix 芯片 上 最 多 检测 50 000 个 拷贝 ， 超 过 这 个 数值 ， 检 测 信 号 也 不 会 增 
大 (图 6-6)。 另 外 ， 芯 片 的 非特 异性 杂交 还 带 来 的 背景 噪声 还 影响 了 检测 准确 度 。 
饱和 区 


ы 10 

z 

ке 

5 0.8 
0.6 
0.4 


0.2 
IRRE 


0.0 


表达 量 


6-6 ”基因 芯片 的 动态 范围 


RNA-seq 提供 了 更 为 丰富 的 序列 信息 ， 包 括 可 变 前 切 、 融 合 基因 或 SNP 等 大 量 序列 变 
异 信息 ， 而 且 链 特异 性 技术 可 以 测定 转录 本 来 自 于 DNA 哪 条 链 。 

从 第 五 章 CLL 数据 集 可 以 看 到 ， 由 于 多 种 因素 降低 了 芯片 实验 的 可 重复 性 ， 造 成 了 同 
一 类 芯片 样本 之 间 的 相似 度 大 幅 降 低 ， 而 RNA-seq 实验 可 重复 性 非常 高 ， 同 类 样本 间 的 相 
关系 数 往往 能 够 达到 0.9 AE СА 6.4.4)。 


6.3.2 RNA-seq 存在 的 问题 


RNA-seq 检测 基因 表达 比 基 因 芯片 有 如 此 多 的 优势 ， 大 有 取代 基因 芯片 之 势 ， 那 么 它 
是 和 否 就 是 一 个 完美 的 技术 呢 ? 回答 是 否定 的 。 尽 管 RNA-seq 相对 于 基因 芯片 技术 的 提高 是 
显著 的 ， 甚 至 是 革命 性 的 ， 即 使 不 考虑 当前 相对 高 的 成 本 〈 这 个 随 着 应 用 范围 增 大 会 慢 慢 
降低 )， 而 且 RNA-seq 依然 存在 着 很 多 其 他 问题 。 

第 一 ，RNA-seq 测序 之 前 需要 一 个 比较 复杂 的 文库 构建 过 程 ， 这 个 过 程 中 的 每 个 步骤 
都 会 带 来 误差 ， 甚 至 导致 实验 失败 。 如 cDNA 片段 化 、PCR 扩 增 等 都 会 带 来 偏 倚 (Bias), 
最 终 导致 有 的 片段 被 反复 测 了 多 次 ， 有 的 没有 测 到 。rRNA 去 除 不 干净 等 因素 也 会 带 来 大 量 
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污染 〈 即 非 目 标 序 列 )。 还 有 很 多 其 他 由 实验 带 来 的 问题 ， 如 链 特 异性 转录 组 建 库 中 很 容易 
导致 第 二 链 中 的 dUTP 消化 不 全 。 

第 二 ，RNA-seq 检测 灵敏 度 和 最 大 值 是 随 测 序 深 度 变 化 的 ， 深 度 不 够 ， 不 能 发 现 超 低 
表达 的 转录 本 ， 需 要 在 测序 前 预 估 转 录 组 的 大 小 。 由 于 复杂 的 RNA 编辑 等 原因 ， 高 等 生物 
的 转录 组 数量 与 其 编码 的 基因 数量 没有 固定 的 比例 关系 ， 因 此 预 估 可 能 会 有 较 大 误差 。 

第 三 ， 参 考 基因 组 或 转录 组 不 准确 、 测 序 误差 、 错 误 拼 接 或 者 比 对 带 来 的 错误 会 大 大 
影响 各 种 变异 或 者 可 变 前 切 事件 的 识别 。 例 如 ， 使 用 Trinity 拼接 转录 组 时 ， 有 可 能 把 同 源 
基因 或 者 同一 家 族 的 相似 基因 误 拼 在 一 起 ， 当 使 用 Bowtie 十 Tophat 软件 比 对 高 等 生物 的 转 
录 组 时 ， 其 外 显 子 一 内 含 子 边界 的 确定 也 是 一 个 难题 。 因 此 ，RNA-seq 发 现 多 样 性 的 能 
就 大 打折 扣 。 

第 四 ， 各 种 其 他 问题 。 如 整个 实验 流程 中 有 可 能 引进 各 种 污染 СА, 6.4.1); 多 样品 混用 
同一 个 泳 道 时 ，Barcode 会 出 现 错 误 分 配 ， 其 原因 很 多 外 ， 原 始 数 据 的 预 处 理 ， 表 达 差 异 分 
析 的 数学 模型 等 各 方面 都 还 不 是 很 完善 。 

下 面 讨 论 一 下 如 何 计算 由 测序 误差 引起 的 Barcode 的 错误 分 配 , 假设 Barcode 的 长 度 为 
6 个 碱 基 ， 每 个 样品 之 间 的 标记 距离 为 2( 也 就 是 barcode 中 两 两 之 间 有 2 个 碱 基 不 同 )， 所 
有 的 Barcode 都 用 满 ， 同 时 假设 错误 的 发 生 符合 二 项 分 布 ,那么 只 要 2 个 碱 基 错误 ,就 会 发 
生 一 次 错误 分 配 ， 在 Hiumina 测序 仪 每 个 碱 基 的 平均 错误 率 0.5% 的 前 提 下 ， 通 过 例 6-5, 
就 可 以 计算 出 一 个 泳 道 的 测序 错误 分 配 概率 。 


例 6-5: 

р=0.0005 

sum (sapply(2:6,FUN=function(k) сһооѕе(6,К)*р^К*(1-р)^(6-Ю))) 

[1] 0.0003700281 

也 就 是 说 ， 在 一 个 泳 道中 ， 每 百 万 读 段 就 会 有 370 个 读 段 分 配 错误 。 例 6-5 还 只 是 考 
虑 了 测序 误差 引起 的 Barcode 错误 分 配 ， 如 果 考 虑 其 他 的 因素 ， 例 如 DNA 簇 混 合 Mixed 
clusters) 和 跳跃 PCR(Jumping PCR) 引 起 的 Barcode 错误 分 配 ,这 个 数值 还 要 高 很 多 。Barcode 
的 错误 分 配对 于 大 部 分 的 转录 组 分 析 没 有 影响 ， 但 是 对 于 一 些 高 灵敏 度 的 检测 项 目 〈 例 如 
癌症 中 常见 的 稀有 突变 检测 )， 影 响 还 是 很 大 的 。 


6.4 RNA-seq 数据 预 处 理 


RNA-seq 数据 预 处 理 与 基因 芯片 数据 预 处 理 一 样 〈 见 5.3)， 目 的 都 是 得 到 基因 表达 数 
据 ， 这 里 的 基因 确切 来 说 是 转录 本 。 但 是 ，RNA-seq 数据 预 处 理 与 芯片 预 处 理 也 有 很 多 不 
同 ， 下 面 根据 RNA-seq 的 处 理 流程 逐一 介绍 。 
6.4.1 质量 控制 


更 详细 的 数据 质量 分 析 报 告 可 以 调用 ShortRead 包 中 的 ga 函数 得 到 。 另 外 一 个 常用 的 
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工具 是 FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/)， 读 者 可 以 尝试 对 比 两 
种 方法 的 结果 。 例 6-6 就 是 用 qa 函数 生成 质量 分 析 报 告 的 实例 , 示例 数据 来 自 SRA 数据 库 
的 RNA-seq 数据 SRR921344( 表 6-1)。 由 于 RNA-seq 数据 普遍 较 大 , 本 例 建 议 运行 在 Linux 
服务 器 (操作 系统 Fedora) 和 4G 内 存 的 Windows 系统 上 。 运 行 qa 函数 之 前 , 需要 通过 SRAdb 
包 的 getFASTQfile 函数 下 载 示例 数据 。 


例 6-6: 

# 安装 并 加 载 所 需 及 包 。 
source('http://Bioconductor.org/biocLite.R'); 
biocLite("ShortRead") ; 

biocLite("SRAdb"); 

biocLite("R.utils"); 

library(ShortRead); 

library(SRAdb); 

library(R.utils); 

# 下 载 需 要 的 数据 文件 。 
getFASTQfile("SRR921344"); 

# 解压 后 ， 改 名 为 "T2-1.fastq"。 

gunzip ("SRR921344.fastq.gz", destname="T2-1 .fastq"); 
# 需要 分 析 的 数据 文件 名 称 。 
fastqfile="T2-1.fastq"; 

# 得 到 质量 分 析 的 结果 。 

qa <- qa(dirPath=".", pattern=fastqfile, type="fastq"); 
# 输出 html 格式 的 分 析 报 告 。 

report(qa, dest="qcReport", type="html"); 


例 6-6 执行 完毕 ， 得 到 一 个 结果 目录 ， 名 称 是 “qcReport”， 主 要 包括 质量 分 析 的 报告 
XF “index.html” MIK “image”, 文件 夹 “image” 包 括 所 有 的 统计 信息 图 示 。 报 告 文 
件 “index.html” 主 要 分 为 以 下 几 个 部 分 。 

第 一 部 分 是 报告 汇总 信息 ， 告 诉 你 此 次 质量 分 析 都 处 理 了 哪些 数据 文件 ， 每 个 文件 原 
始 读 段 有 多 少 ， 过 滤 掉 多 少 和 比 对 上 多 少 。 例 6-6 中 ， 只 需要 分 析 一 个 数据 “T2-1.fastq”， 
这 个 数据 共有 6 711 429 个 读 段 ， 没 有 经 过 任何 过 滤 或 者 比 对 《图 6-7A)。 接 下 来 就 是 读 段 
质量 分 数 分 布 图 (图 6-7B)， 它 横 坐 标 是 质量 分 数值 ， 纵 坐标 是 数据 “T2-1.fastq” 内 总 读 
段 中 的 各 种 质量 分 数 的 比例 含量 ,从 图 6-7B 中 可 以 看 出 , 读 段 质量 分 数 的 峰值 中 心 接近 40, 
而 且 总 体 上 比较 集中 ， 说 明 测序 质量 还 是 非常 高 的 。 

下 一 个 比较 重要 的 信息 是 前 20 个 高 频 出 现 的 读 段 统计 信息 (图 6-8A)， 这 些 序列 对 于 
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确定 接头 或 者 其 他 污染 很 重要 ， 一 般 需 要 将 这 前 20 条 序列 对 比 到 NCBI NT 数据 库 查 看 是 
否 来 自 某 种 污染 (如 大 肠 杆菌 污染 )。FastQC 软件 带 有 一 个 文件 包括 了 常用 的 Шипїпа 接头 
序列 ， 会 把 高 频 出 现 的 序列 比 对 到 这 些 接头 序列 ， 并 给 予 提示 ; Bioconductor 需要 编程 比 对 
到 NCBI UniVec 数据 库 (http://www.ncbi.nlm.nih.gov/tools/vecscreen/univec/) 来 确定 接头 序 
列 ， 读 者 可 以 自己 尝试 。 再 接 下 来 就 是 四 种 碱 基 (ATCG) 的 逐 点 质量 图 (图 6-8B)， 该 图 
横 坐 标 是 测序 的 循环 数 (Cycle)， 对 应 测序 时 5’ 端 开始 的 每 个 位 点 , 纵 坐 标 是 所 有 该 位 点 测 
量 的 碱 基 的 质量 分 数 平均 值 。 另 外 ， 质 量 分 析 的 报告 文件 “index.html” 对 所 有 的 结果 报告 
和 图 形 都 给 出 了 对 应 的 函数 和 参数 注释 (图 6-8A 中 黑色 框 内 部 分 )， 读 者 可 以 根据 这 些 信 
息 ， 自 行 改变 参数 ， 输 出 自己 需要 的 信息 。 
А. В. 
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ShortRead Quality Assessment 


Overview 

This document provides a quality assessment of Genome Analyzer results. 
The assessment is meant to complement, rather than replace, quality оз 
assessment available from ће Genome Analyzer and its documentation. The 
narrative interpretation is based on experience of the package maintainer. Itis 
applicable to results from the ‘Genome Апајугег hardware single-end 
module, configured to scan 300 tiles per lane. The 'control results refered to 
below are from analysis of PhiX-174 sequence provided by Illumina. 


Run Summary 


Subsequent sections of the report use the following to identify figures and 
other information. 
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图 6-7 汇总 信息 和 读 段 质量 分 数 分 布 图 
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А. В. 
Common duplicate reads might provide clues to the source of over- 

represented sequences. Some of these reads are filtered by the alignment А А Е 
algorithms; other duplicate reads might point to sample preparation issues. 


ShortRead: : :.freqSequences (да, "read") 


sequence count 
CTCCACACTTGCATGCATGTCCACCCTCAGCTACAAAGCTTCCCTCACTIC 1220 
СТТААТСТТСТССАТбАСТСССТТСТТСТСАТбТССТТССТСТССТАСАТТ 1124 
CTCAATCTCATCACCAAAACGGCCGCCAGTGATTTCCGTCTGTAGATTACC 1019 
СТСТТІСОСТАССАТВАТСАСССССАСССАССТІСТССТІЗАТСТІСТССАС 1013 
АСАААААСТТАСТАСССАТСОСССТТАТСТСССАТСАААСТСАТАСАТІСС 989 
СССССААСАСАССТСТТАССАТСАСАССТАСТАСТАТААТААААСССАССА 900 
СТССАТТІСТСААССТІССАТСАСТІССАСТТССАССТТІСАСССОСАТСАС 865 
СТОСТААСТІСТССТТААТСТТСТССАТСАСТСССТТСТІСТСАТСТССТТ 857 
ССССАСТСССАСАССТТССАСАСАСАСТІТААСТІТАСССАТСТСТІСССТІ 745 
АТАТАТТСССАССТОСТССТАТСТТІССААТАСАТАССТОСТТСАССААСА 725 
ССАСАСТТССАТССАТСТССАСССТСАССТАСАААССТІСССІСАСТІССА 707 
СТСААССТТАТССТСТІСТТІСАААТІССІЗСССТІССССТАСТСТСССТСАТ 692 
ССССССАСССАТТСТІСТСАСССТАССССАААСССТССТССААСТССААТІ 686 
СССАСССАТТСТІСТСАСССТАССССАААСССТССТССААСТССААТТССА 676 
СТСАТТІСССТСТСТАСАТТАСССААААССІССТІСССАТТАСААССАІСС 661 
ССТСААТСТСАТСАССААААССССССССАСТСАТТТСССТСТСТАСАТТАС 636 
ССССААСАСАССТСТТАССАТСАСАССТАСТАСТАТААТААААСССАССАЗ 631 
ССССТССТСААССТАААТАССАСАСАТТІСААТСАТСІСТІСАСССІСАСС 607 
СТССТІТТСССАССААТСТССССАССССССТАТСТСТАТАСАСААСТААСА 607 
СТССАТТІСІСААССІССТАІСАСІТССАСТІССАССІССІСССССАТСА 598 
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图 6-8 ”高 频 读 段 信息 和 四 种 碱 基 逐 点 质量 图 〈 见 彩 图 ) 


质量 控制 中 最 重要 的 一 个 图 就 是 逐 点 质量 图 ， 它 与 四 种 碱 基 逐 点 质量 图 的 区 别 在 于 不 
区 分 碱 基 种 类 ， 给 出 每 个 位 点 的 测序 质量 分 数 的 平均 数 〈 见 图 6-9 绿色 实 线 )、 中 位 数 〈 见 
图 6-9 #{азЕ%) 和 上 下 四 分 位 线 〈 见 图 6-9 橙色 虚线 )。 从 图 6-9 中 可 以 看 出 ，Ilumina 
测序 仪 产生 的 读 段 的 5" 端 前 几 个 位 置 和 3’ 端的 后 儿 个 位 置 测序 质量 比较 低 ， 根 据 这 个 规律 
可 以 开发 读 段 清理 程序 ， 去 除 两 端的 低 质 量 区 域 ( 见 6.4.2). 

质量 分 析 是 下 一 代 测 序数 据 分 析 的 第 一 步 ， 其 作用 至 关 重 要 ， 通 过 质量 控制 ， 可 以 确 
定 当前 样品 的 数据 是 否 应 该 保留 进入 下 一 步 分 析 或 者 丢弃 。 对 于 通过 质量 控制 的 数据 ， 还 
要 进行 读 段 清理 ， 清 理 后 的 数据 才 是 实际 分 析 中 使 用 的 数据 。 这 里 需要 注意 的 是 ， 发 表 高 
通 量 测序 方面 的 文章 ,要求 向 SRA 数据 库 提交 的 应 该 是 原始 数据 (Raw data)， 即 未 经 清理 
的 测序 仪 下 机 数据 ， 经 过 测序 仪 随 机 软件 (如 CASAVA) 简单 处 理 的 ， 应 该 记录 下 软件 版 
本 和 处 理 时 设 定 的 参数 。 
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图 6-9 读 段 逐 点 质量 图 〈 见 彩 图 ) 


642 读 段 清理 


由 于 RNA-seq 得 到 的 是 Fastq 格式 的 序列 文件 〈 见 6.2.2). 首先 要 对 其 中 的 所 有 读 段 进 
行 数据 清理 ， 也 称 读 段 清理 (Read cleaning)， 主 要 包括 去 + НА “М” АЕ (表示 
未 知 核 苷 酸 )， 读 段 两 端的 低 质 量 区 域 〈 质 量 分 数 小 于 0202, EE 3 端 可 能 混入 的 接头 序 
列 , 还 有 可 能 污染 进来 的 rRNA 和 病毒 序列 。 高山 等 开发 了 一 个 基于 Bioconductor 的 一 体 化 
程序 (未 发 表 )， 可 以 通过 简单 操作 实现 上 述 全 部 功能 。 该 软件 应 用 在 菊花 转录 组 中 山 ， 得 
到 如 下 读 段 清理 结果 (图 6-10). 
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Sample Raw_reads Кам len Clean_reads Clean_len Removed_reads Removed_nt rRNA Virus 
Ti 10,023,119 100 8891363 90.34 11.29% 19.86% 8,860,544 8,860,445 
T2 5,961,530 100 5287312 90.31 11.31% 19.90% 5,270,081 5,270,009 
T3 11,565,999 100 10260697 90.20 11.29% 19.98% 10,218,377 10,218,122 

Т1-1 11,241,208 51 9277082 47.25 17.47% 23.54% 9,236,585 9,235,860 
12-1 6,711,429 51 5539140 47.25 17.47% 23.54% 5,516,813 5,516,378 
T3-1 13,347,995 51 11024879 47.25 17.40% 23.47% 10,968,524 10,967,536 
CK1 9,895,473 100 8738818 89.97 11.69% 20.54% 8,705,012 8,704,849 
CK2 10,764,969 100 9545885 90.12 11.32% 20.09% 9,516,028 9,515,764 
СКЗ 11,003,841 100 9711817 89.84 11.74% 20.71% 9,685,917 9,685,618 
СК1-1 11,447,384 51 9401219 47.24 17.87% 23.92% 9,357,095 9,356,448 
СК2-1 12,367,882 51 10203604 47.25 17.50% 23.57% 10,164,356 10,163,595 
CK3-1 12,851,113 51 10543333 47.25 17.96% 24.00% 10,509,066 10,508,238 


图 6-10” 读 段 清 理 结果 


以 100 bp 读 段 为 例 ， 读 有 段 清理 的 基本 原理 是 ， 首 先 将 所 有 低 于 Q20 WERI 
为 “N” 然后 切除 5’ 端 前 10 bp 中 的 和 3? 端 后 50 bp PAI “№”; 剩 下 的 部 分 如 果 还 有 2 个 
以 上 的 “N”， 扔 掉 整 条 读 段 ; 去 除 3? 端 可 能 混入 的 接头 序列 ， 再 扔 掉 与 ГАМА 和 病毒 相似 
的 序列 。 从 图 6-10 中 ， 可 以 看 到 样品 “T1” 含 有 10 023 119 条 长 度 为 100 bp 的 原始 读 段 ， 
读 段 清理 后 得 到 8 891 363 条 读 段 ， 平 均 长 度 为 90.34 bp， 去 除 tRNA 后 得 到 8 860 544 条 读 
段 ， 再 去 除 病毒 后 得 到 8 860 445 条 读 段 。 整 个 数据 处 理 过 程 共 去 掉 11.29% 的 读 段 ， 共 去 掉 
19.86% 的 核 昔 酸 残 基 。 

根据 读 段 清理 的 结果 中 的 简单 质量 信息 ， 即 可 完成 部 分 质量 控制 。 例 如 
“Removed_reads” 表 示 有 多 少 比例 的 读 段 被 整体 去 除 ,“Removed_nt” 表 示 有 多 少 比例 核 萌 
酸 残 基 被 去 除 , “rRNA” RIER TRNA 后 剩 下 的 读 段 数量 ,“Virus” 表 示 去 除 病毒 后 剩 下 
的 读 段 数量 。 根 据 这 些 质量 信息 ， 可 以 简单 判定 实验 的 数据 质量 ， 如 果 某 项 污染 去 除 的 比 
例 高 于 一 定 阔 值 ， 该 样品 建议 作废 ,例如 “Removed_reads” 超 过 一 定 比 例 (40% 或 更 高 )。 
因为 ， 大 量 低 质量 数据 去 除 不 是 均一 的 ， 会 影响 基因 表达 的 分 布 ， 特 别 是 在 该 样品 测序 深 
度 不 足够 高 的 情况 下 ， 一 些 低 表达 基因 的 读 段 可 能 被 完全 去 除 。 从 图 6-10 中 可 以 看 到 ， 几 
个 重复 样品 的 主要 去 除 指标 都 远 远 低 于 40% ， 而 且 数值 非常 接近 ， 表 明 该 实验 数据 集 的 质 
量 是 很 高 的 。 

读 段 清理 的 难点 在 于 ， 需 要 去 除 的 低 质量 和 接头 等 残 基 在 不 同 的 读 段 上 是 不 等 长 的 ， 
有 的 长 有 的 短 ， 需 要 通过 模式 匹配 来 准确 删除 ， 而 模式 匹配 还 需要 考虑 测序 误差 带 来 的 错 
配 等 因素 。 如 果 用 fastx_toolkit (http:/hannonlab.cshl.edu/fastx_toolkit) 等 工具 简单 删除 3 
端 几 个 固定 残 基 ， 就 会 残留 部 分 接头 ，Bioconductor 没有 提供 查看 3? 端 接头 序列 的 方法 ， 只 
能 调用 FastQC 软件 完成 ( 见 例 6-7)。 这 个 读 段 清理 程序 的 最 大 优点 是 , 充分 利用 了 Шшшпа 
的 序列 特征 ， 例 如 5 端 前 几 个 残 基 和 3" 端 一 定数 量 残 基质 量 低 于 阅 值 。 它 非常 精确 地 去 除 
REIRE EA RNA 和 病毒 等 污染 ， 最 大 限度 保留 了 高 质量 数据 。 现 有 的 其 他 程序 对 
读 段 的 处 理 都 很 粗糙 ， 存 在 很 多 问题 ， 例 如 有 的 程序 根据 固定 长 度 切 掉 3 端的 几 个 残 基 当 
作 接 头 ， 还 有 的 程序 通过 平均 数 方法 去 掉 质 量 比较 低 的 整 条 读 段 。 读 段 清 理 对 于 后 续 的 拼 
接 和 比 对 非常 重要 ， 我 们 的 研究 表明 ， 好 的 读 段 清理 可 以 大 大 提高 读 段 比 对 到 基因 组 的 百 
分 比 。 由 于 这 个 读 段 清理 程序 需要 较 多 编程 技巧 和 更 多 二 代 测 序 的 相关 知识 ， 这 里 不 做 详 
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细 讨 论 。 另 外 ， 实 际 中 遇 到 的 各 种 污染 情况 非常 复杂 ， 除 了 这 个 读 段 清 理 程序 考虑 的 接头 、 
IRNA 和 病毒 等 污染 ， 还 有 可 能 有 细菌 、 真 菌 等 其 他 类 型 的 污染 。 如 果 样 本 不 是 来 自 实 验 室 
的 细胞 系 ， 例 如 野外 的 植物 或 动物 ， 情 况 则 更 复杂 。 


例 6-7: 

# 进入 linux 系统 ， 下 载 高 通 量 数据 SRR987316.sra。 

wgetftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR987/SRR987316/ 
SRR987316.sra 

# 将 SRA 格式 的 高 通 量 数据 转换 为 FASTQ 格式 。 


-fastq-dump SRR987316.sra 
# 调用 fastqc 软件 〈 版 本 0.10.1) 输出 质量 控制 报告 。 
fastqc SRR987316.fastq 


例 6-7 "F, SRR987316.sra( 测 序 长 度 36bp) 是 small RNA-seq 数据 , 下 载 后 用 fastq-dump 
工具 (版 本 2.1.7) 进行 格式 转换 ， 再 用 FastQC 输出 质量 控制 报告 ， 从 子 串 图 中 可 以 明显 地 
看 到 尾部 高 频率 的 5bp 长 的 子 串 来 自 接头 序列 , 再 结合 高 频 读 段 表 即 可 确定 3? 端 接头 序列 
(图 6-11)。 从 高 频 读 段 表 的 前 10 个 读 段 中 ， 还 可 以 发 现 频率 最 高 的 第 一 个 序列 出 现 次 数 
1 449 872， 占 了 这 个 样品 读 段 总 数 的 16.79%， 是 很 严重 的 mRNA 污染 ， 读 者 可 以 将 此 读 段 
比 对 到 NCBI NT 数据 库 查 看 结果 。 这 个 结果 还 说 明了 由 于 mRNA, mRNA 等 多 种 污染 ， 再 
结合 测序 错误 ， 精 确 地 拿 到 3’ 端 接头 序列 还 是 需要 经 验 的 。 接 下 来 的 一 个 例子 最 高 频率 的 
读 段 出 现 了 2 996 052 次 (16.88%)， 就 是 很 严重 的 rRNA 污染 ， 

例 6-7 之 所 以 用 small RNA-seq 数据 来 举例 说 明 如 何 根 据 质量 控制 信息 来 确定 接头 序 
列 ， 是 因为 small RNA-seq 测序 待 测序 序列 普遍 小 于 25bp， 几 乎 一 半 的 序列 是 来 自 3? 端 接 
头 ， 如 果 不 能 精确 地 判定 出 3’ 端 接头 ， 会 严重 影响 后 续 分 析 ， 甚 至 导致 错误 的 结论 出 现 。 
特别 是 当前 的 很 多 公开 数据 ， 甚 至 测序 公司 提供 的 数据 都 不 提供 详细 的 3’ 端 接头 信息 ， 通 
过 质量 分 析 判 断 接头 在 实际 工作 中 非常 重要 。 例 6-7 的 接头 序列 恰好 在 26bp 位 置 有 一 个 很 
明显 的 峰值 ， 再 结 高 频 读 段 表 ， 很 快 就 可 以 加 以 确定 。 但 是 并 不 是 说 所 有 的 3? 端 接头 都 会 
在 一 个 固定 位 置 且 有 一 个 如 此 明显 的 峰值 ， 读 者 可 以 用 EastQC 分 析 另 外 一 个 数据 
SRR345550.sra (W А К Е 49bp) 并 输出 质量 控制 报告 ， 它 的 第 一 个 高 频 序 列 
“GCGCGGGACATGTGGCGTACGGAAGTCGTATGCCGTCTTCTGCTTG” 即 由 rRNA 序列 
“GCGCGGGACATGTGGCGTACGGAAG” 和 3’ 端 接头 “TCGTATGCCGTCTTCTGCTTG” 
两 部 分 组 成 。 读 者 可 以 自己 尝试 比 对 这 段 TRNA 序列 到 NCBI NT 数据 库 查看 结果 ， 并 自行 
总 结 确定 3? 端 接头 的 出 现 规律 。 
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CTGTAGGCACCATCAATTCGTATGCCGTCTTCTGCTT 

s0 шь 前 10 个 高 频 读 段 
TGCTAGCTTATCAGACTGATGTTGACTGTAGGCACC 
~ TGCCTGTAGGCACCATCAATTCGTATGCCGTCTTCT 
60 TGCTCAGTGCACTACAGAACTTTGTCTGTAGGCACC 
TGCTGAGGTAGTAGATTGTATAGTTCTGTAGGCACC 
TGCTGAGGTAGTAGATTGTATAGTCTGTAGGCACCA 
ia TGCTGTAACAGCAACTCCATGTGGAACTGTAGGCAC 
AGCTGTAGGCACCATCAATTCGTATGCCGTCTTCTG 
30 ТСССААССТСССАСТТСААСААСТСТСТСТАСССАС 
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Position іп read (Ыр) 


A ТОСТСАССТАСТАССТТСТАТОСТТСТСТАСССАСС 
\ ТОСТОССТСАСТТСАССАССААСАСТСТСТАСССАС 


图 6-11 查看 3' 端 接头 〈 见 彩 图 ) 
6.4.3 转录 组 组 装 


转录 组 组 装 包括 从 头 组 装 〈 如 菊花 转录 组 ) 和 基于 参考 序列 的 组 装 〈 如 人 的 转录 组 )， 
其 基本 原理 前 面 已 经 介绍 。 对 于 两 种 策略 联合 使 用 的 先 比 对 再 组 装 和 先 组 装 再 比 对 方法 ， 
由 于 缺少 相应 的 软件 及 相关 研究 ， 这 里 不 做 进一步 讨论 。 转 录 组 组 装 一 般 使 用 С 或 Java 等 
程序 语言 开发 的 软件 实现 ，R 和 Bioconductor 没有 对 应 的 包 。 

从 头 组 装 最 常用 的 软件 是 Trinity， 其 优点 是 : 不 依赖 于 参考 序列 ， 能 较 好 地 重建 变异 
的 、 可 变 剪 切 的 或 者 来 自 染 色 体 重组 的 转录 本 。 从 头 组 装 的 缺点 有 :， 需要 较 大 内 存 资源 ; 
需要 较 高 深度 的 测序 〈 至 少 60X 以 上 ); 对 测序 错误 敏感 ， 如 果 用 KTE (Kmer) 法 去 除 
错误 (如 Trinity)， 会 去 除 低 丰 度 的 转录 本 ; 高 相似 度 的 转录 本 《如同 源 基 因 ) 可 能 会 被 误 
拼 到 一 起 。 基 于 参考 序列 的 组 装 常 使 用 TopHat (实际 上 是 通过 两 次 调用 Bowtie 来 完成 比 对 ) 
和 Cufflinks 〈 主 要 用 于 转录 本 识别 、 定 量 、 标 准 化 及 差异 分 析 ) 两 种 软件 的 组 合 来 完成 。 
其 优点 是 ， 内 存 需求 小 : 污染 影响 小 ， 因 为 污染 读 段 不 能 比 对 到 参考 序列 ， 灵 敏 度 高 ， 所 
需 测 序 深度 低 〈 最 低 可 以 到 10X， 建 议 使 用 20X)， 能 检测 低 丰 度 的 转录 本 ; 组 装 的 转录 本 
序列 更 完整 ， 可 以 增加 参考 基因 组 中 的 转录 本 注释 。 基 于 参考 序列 的 组 装 的 缺点 : 严重 依 
赖 参考 序列 及 其 注释 信息 ; 比 对 带 来 的 错误 的 影响 ， 不 容易 组 装 Trans-spliced genes， 而 这 
些 基 因 对 于 某 些 癌 症 研究 十 分 关键 。 

本 章 中 的 菊花 基因 组 使 用 Trinity 软件 从 头 组 装 得 到 111 641 个 Contig, 为 了 去 除 拼接 软 
件 存 在 的 欠 拼接 问题 ， 使 用 本 实验 开发 的 iassembler 软件 〈bioinfo.bti.cornell.edu/tool/ 
iAssembler) 进行 二 次 拼接 ， 最 终 得 到 98 180 个 Unigenes。 
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6.4.4 转录 组 定量 和 标准 化 


有 参 的 转录 组 定量 ， 需 要 利用 TopHat 比 对 软件 将 所 有 读 段 比 对 到 参考 基因 组 上 ， 然 后 
由 Cufflinks 软件 完成 定量 ， 无 参 的 转录 组 定量 需要 利用 Bowtie 或 BWA 比 对 软件 将 所 有 读 
段 比 对 到 组 装 得 到 的 转录 组 上 直接 计数 。 无 论 哪 种 组 装 方式 ， 都 会 遇 到 读 段 比 对 问题 ， 单 
端 测序 读 段 的 比 对 比较 简单 ， 双 端 测 序 读 段 的 比 对 问题 比较 复杂 。 双 端 测序 的 质量 不 一 致 ， 
往往 是 反 向 一 端 测序 质量 低 ， 如 果 按 照 同 样 的 标准 〈 例 如 允许 一 个 错 配 ) 要 求 两 端 测序 的 
读 段 都 比 对 上 , 会 丢失 很 多 比 对 结果 。 一般 采取 的 方式 是 两 端 读 段 分 别 根据 不 同 的 标准 〈 例 
如 正 向 允许 一 个 错 配 ， 反 向 允许 两 个 错 配 ) 做 单 端 比 对 ， 然 后 根据 两 端 对 齐 后 中 间距 离 〈 即 
文库 插入 长 度 ) 抽取 成 对 的 比 对 结果 。 如 果 是 比 对 到 基因 组 还 需要 设 定 对 齐 的 总 数 ， 即 同 
一 对 读 段 在 基因 组 上 比 对 上 的 位 点 过 多 ， 则 去 除 。 转 录 组 定量 得 到 的 基因 表达 矩阵 是 简单 
计数 得 来 的 ， 因 此 称 作 原 始 计数 (Raw counts)。 有 参 的 转录 组 的 定量 ， 可 以 用 Bioconductor 
的 GenomicRanges/Rsamtools 软件 包 中 的 summarizeOverlaps 函数 来 实现 。 输 入 的 数据 为 比 
对 后 得 到 的 Bam 或 者 Sam 文件 ,经 过 基因 水 平 或 者 外 显 子 水 平 ( 见 Bioconductor 中 DEXSeq 
软件 包 的 说 明 ) 的 计数 ， 可 以 直接 输出 为 某 种 预定 义 对 象 ， 便 于 下 游 软件 〈 如 edgeR 包 和 
DESeq 包 ) 继续 处 理 。 例 6-8 调用 了 summarizeOverlaps 函数 从 Bam 文件 中 获取 原始 计数 ， 
并 输出 为 edgeR 包 和 DESeq 包 中 的 数据 对 象 。 


例 6-8: 
# 安装 并 加 载 所 需 民 包 。 
source('http://Bioconductor.org/biocLite.R'); 
biocLite("Rsamtools "); 
biocLite("DESeq"); 
biocLite("edgeR"); 
library(Rsamtools); 
library(DESeq); 
library(edgeR); 
# 示例 数据 来 自 GenomicRanges 包 中 的 文件 extdata。 
fls <- list.files(system.file("extdata",package="GenomicRanges"), 
recursive=TRUE, pattern="*bam$", full=TRUE); 
bfl <- BamFileList(fls, index=character()); 
features <- GRanges( 
seqnames = c(rep("chr2L", 4), rep("chr2R", 5), rep("chr3L", 2)), 
ranges = IRanges(c(1000, 3000, 4000, 7000, 2000, 3000, 3600, 4000, 
7500, 5000, 5400), width=c(rep(500, 3), 600, 900, 500, 300, 900, 
300, 500, 500)), "-", 
group_id=c(rep("A", 4), гер("В", 5), гер("С", 2))) ; 
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olap <- summarizeOverlaps(features, bfl) ; 
deseq <- newCountDataSet(assays(olap)$counts, rownames(colData(olap))) ; 


edger <- DGEList(assays(olap)$counts, group=rownames(colData(olap))) ; 


类 似 基 因 芯 片 ，RNA-seq 定量 后 的 数据 需要 标准 化 ， 使 所 有 样品 具有 可 比 性 。 最 常见 
的 一 个 指标 是 RPKM(Reads Per Kilo bases per Million reads)， 即 每 百 万 读 段 中 来 自 某 一 基因 
每 千 碱 基 长 度 的 读 段 数目 。 有 具体 计算 时 使 用 比 对 到 某 个 基因 的 读 段 个 数 除 以 比 对 到 基因 组 
或 者 转录 组 的 所 有 读 段 的 个 数 〈 以 百 万 为 单位 )， 再 除 以 基因 或 者 转录 本 的 长 度 ( 以 KB 为 单 
位 )。 实 际 应 用 中 , 基因 表达 差异 分 析 的 常用 软件 edgeR 和 DESeq 都 自 带 了 数据 标准 化 功能 ， 
可 以 直接 处 理 用 原始 计数 表示 的 基因 表达 抢 阵 ，RPKM 表示 的 基因 表达 矩阵 的 使 用 主要 是 
为 了 方便 用 户 直 接 观 察 数 据 〈 见 例 6-9). 


例 6-9: 

setwd("C:/workingdirectory"); 

# 导入 数据 , 第 1 列 是 基因 名 称 用 作 row.name, 最 后 一 列 是 基因 长 度 , 第 1 175 sample 名 称 。 
raw.data <- read.table("raw_counts.table",row.names=1); 

# 去 除 第 1 列 长 度 信 息 ， 只 保留 样本 的 基因 表达 值 。 

counts <- raw.data[, 2:dim(raw.data)[2]]; 

# 取出 第 1 列 长 度 信息 。 

length<-raw.data[, 1]; 

# 读 取 lib_size， 即 每 个 样品 可 以 对 齐 到 转录 组 的 读 段 总 数 。 
lib_size <- read.table("lib_size.txt"); 

lib_size <- unlist(lib_size); 

# 计算 RPKM 值 。 

rpkm <- t(t(counts/length)*10^9/lib_size); 

# 输出 为 表 的 格式 。 

write.table(rpkm,file = "rpkm.table",sep = "\t"); 

# 计算 相关 系数 。 

cor_table = cor(rpkm); 

# 输出 为 表 的 格式 。 


write.table(cor table,file = "correlations.table" вер = "\"); 


6.4.5 线性 相关 系数 


在 基因 芯片 研究 中 ， 一 类 很 重要 的 质量 控制 指标 就 是 利用 芯片 之 间 的 相互 关系 来 简单 
判别 实验 结果 的 好 坏 ， 这 类 指标 包括 聚 类 分 析 、 主 成 分 分 析 和 相关 系数 矩阵 〈 见 5.3.2)。 本 
章 6.3.1 提 到 了 RNA-seq 实验 可 重复 性 非常 高 ， 同 类 样本 间 的 相关 系数 往往 能 够 达到 0.9 以 


Д 180 RR 语言 与 Bioconductor 生物 信息 学 应 用 


上 。 因 此 用 相关 系数 来 对 全 部 样品 进行 分 析 ， 是 质量 控制 中 非常 关键 的 一 步 。 计 算 相 关系 
数 矩 阵 ， 可 以 使 用 标准 化 之 前 的 Raw count 数据 ， 也 可 以 使 用 标准 化 之 后 的 数据 〈 例 如 
RPKM)。 菊 花 转 录 组 使 用 了 RPKM 数据 计算 相关 系数 〈 见 例 6-9)， 从 图 6-12 中 ， 可 以 看 
到 处 理 组 CT) 6 个 样品 之 间 相 关系 数 都 在 0.96 之 上 (图 6-12 左 侧 大 黑 框 内 )， 对 照 组 (СК) 
6 个 样品 之 间 相 关系 数 都 在 0.99 之 上 (图 6-12 右 侧 大 黑 框 内 )， 而 组 间 相 关系 数 普遍 小 于 
0.6， 说 明了 实验 结果 非常 可 靠 。 


T Т2 тз T1-1 T2-1 T3-1 ск1 сю CK3 CK1-1 KK2-1 CK3-1 


图 6-12 ”菊花 转录 组 相关 系数 矩阵 


6.5 RNA-seq 数据 分 析 


总 体 上 ，RNA-seq 数据 分 析 和 基于 表达 谱 芯片 的 数据 分 析 非 常 相 似 ， 特 别 是 在 基因 表 
达 差 异 的 显著 性 分 析 这 方面 ， 流 程 基本 相同 ， 不 同 的 地 方 只 在 确定 差异 表达 基因 方面 。 因 
此 ，RNA-seq 表达 差异 分 析 这 部 分 只 需要 讲解 如 何 利 用 Bioconductor 软件 包 来 确定 差异 表 
达 基 因 ， 后 续 的 GO 或 者 通路 分 析 完 全 可 以 参考 第 五 章 的 基因 芯片 部 分 内 容 。 


6.51 基因 表达 差异 的 显著 性 分 析 


数据 标准 化 属于 RNA-seq 预 处 理 范围 ， 但 是 由 于 很 多 数据 处 理 软件 都 自 带 了 标准 化 的 
算法 和 函数 ， 这 里 需要 再 介绍 一 下 。RPKM 使 用 了 每 个 样本 中 可 以 比 对 到 转录 组 的 总 读 段 
数 和 转录 本 长 度 来 标准 化 每 个 转录 本 的 读 段 计数 。 由 于 表达 差异 分 析 只 对 比 不 同样 本 之 间 
的 同一 个 转录 本 ， 这 就 不 需要 考虑 转录 本 长 度 ， 而 只 考虑 总 读 段 数 。 一 个 最 简单 的 思想 就 
是 ， 样 本 测序 得 到 的 总 读 段 数 《实际 上 是 可 以 比 对 到 转录 组 的 总 读 段 数 ) 越 多 ， 则 每 个 基 
因 分 配 到 的 读 段 越 多 。 因 此 最 简单 的 标准 化 因子 就 是 总 读 段 数 ， 用 总 读 段 数 作 标准 化 的 前 
提 是 大 部 分 基因 的 表达 是 非 显 著 变 化 的 ， 这 与 基因 芯片 中 的 基本 假设 相同 。 但 是 实际 工作 
中 发 现 很 多 情况 下 总 读 段 数 主要 是 一 小 部 分 大 量 表达 的 基因 贡献 的 ， 如 果 这 小 部 分 基因 是 
差异 表达 的 ， 而 不 是 稳定 不 变 的 ， 就 会 极 大 地 影响 整体 结果 。Bullard $ (2010) 在 比较 了 
几 种 标准 化 方法 的 基础 上 发 现在 每 个 泳 道内 使 用 非 零 计 数 分 布 的 上 四 分 位 数 〈Q75 多 ) 作为 
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标准 化 因子 是 一 种 更 稳健 的 选择 ， 总 体 表 现 是 所 研究 方法 中 最 优 的 。Bioconductor 的 edgeR 
包 和 DESeq 包 分 别提 供 了 上 四 分 位 数 和 中 位 数 来 作为 标准 化 因子 ， 就 是 出 自 这 个 思想 。 
edgeR 提供 了 三 种 标准 化 算法 分 别 是 M 值 加 权 和 截断 均值 法 (Weighted trimmed mean of 
M-values, TMM) ， 相 对 对 数 表 达 值 法 (Relative log expression, RLE) 和 上 四 分 位 法 
CUpperquartile)， 其 中 ТММ 是 默认 设 定 。 这 些 标准 化 方法 大 同 小 异 ， 其 基本 思想 就 是 去 除 
表达 值 较 大 的 少数 基因 的 影响 ， 而 保留 大 部 分 没有 显著 变化 的 基因 。 

由 于 基因 芯片 检测 杂交 的 荧光 强度 信号 是 连续 值 , 往往 假设 它 符 合 正 态 分 布 ( 见 5.4.1); 
而 对 于 RNA-seq 测量 的 离散 值 ， 最 简单 的 假设 就 是 二 项 分 布 。 由 于 RNA-seq 读 段 数量 非常 
大 ， 而 且 一 条 读 段 映射 到 一 个 给 定 基因 的 概率 足够 小 ， 在 实际 计算 中 ， 二 项 分 布 常用 它 的 
极限 形式 泊 松 〈Poisson) 分 布 来 代替 。 泊 松 分 布 的 一 个 性 质 是 其 方差 等 于 均值 ， 但 是 当 有 
生物 学 重复 时 ，RNA-seq 数据 会 表现 出 比 泊 松 分 布 期 望 的 更 高 的 变异 性 ， 对 相当 多 的 基因 
来 说 方差 可 能 超过 均值 ， 这 种 现象 叫做 过 离散 。 对 过 离散 数据 ， 基 于 泊 松 分 布 假设 的 分 析 
容易 因 低估 不 同 生物 学 重复 带 来 的 取样 误差 而 得 到 过 多 的 假 阳 性 的 差异 表达 基因 。 为 了 多 
许 额外 的 变异 ， 一 个 自然 的 想法 就 是 给 均值 加 上 一 个 散 度 参 数 ， 以 使 方差 可 以 大 于 均值 。 
于 是 作为 泊 松 分 布 的 推广 ， 又 引入 了 负 二 项 分 布 (negative binomial distribution, NB) Ж 
作为 基本 假设 ， 负 二 项 分 布 是 当前 基因 表达 差异 的 显著 性 分 析 中 的 最 常用 假设 。 基 于 负 二 
项 分 布 假设 ，Bioconductor 提供 了 两 个 软件 包 edgeR、DESeq 来 进行 基因 表达 差异 的 显著 性 
分 析 ， 它 们 是 当前 此 领域 最 主要 的 分 析 程 序 。 在 edgeR 中 ， 对 于 任 一 样品 i 中 的 任 一 个 基因 
g， 假 设 它 的 分 布 符合 负 二 项 式 分 布 〈 见 公式 6-5). 


Ys= NB(M; Py% ) 公式 6-5 


其 中 Mi 是 样品 i 中 的 读 段 总 数 《〈 实 际 中 是 可 以 比 对 上 的 读 段 总 数 ); 中 就 是 基因 g 的 
散 度 ; pg 是 基因 g 在 某 个 实验 条 件 j 下 或 分 组 j 中 的 相对 丰 度 。 第 g 个 基因 在 某 个 实验 条 件 
j 下 或 分 组 j 中 ，NB 分 布 的 均值 为 hgj=pejMi， 方 差 为 hg(1+hgj bs， 对 于 表达 差异 分 析 ， 需 
要 估计 的 是 散 度 b。。 当 中 。 趋 近 于 0 的 时 ， 负 二 项 式 分 布 退化 为 泊 松 分 布 ， 这 时 方差 退化 为 
第 1 项 he， 一 般 认为 来 自 技术 重复 ， 方 差 的 第 2 项 js 来 自生 物 学 重复 。 

由 于 RNA-seq 数据 分 析 往 往 只 有 很 小 的 样本 量 (例如 3 个 处 理 加 3 个 对 照 ), 为 每 个 基 
因 估 计 一 个 散 度 非常 困难 。 如 果 假 定 所 有 的 基因 散 度 相同 ， 就 可 以 估计 一 个 公共 散 度 。 这 
个 公共 散 度 就 可 以 使 用 所 有 基因 表达 的 数据 来 估计 ， 能 够 大 大 提高 估计 的 精度 。 更 好 的 策 
略 是 允许 不 同 的 基因 有 不 同 的 个 体 散 度 ， 而 这 些 个 体 散 度 的 估计 可 以 用 一 些 合适 的 统计 方 
法 借助 基因 间 的 信息 来 改进 ,软件 包 edgeR、DESeq 都 有 各 自 的 散 度 估计 方法 ,相对 于 edgeR， 
DESeq 默认 设置 采取 了 最 保守 的 估计 策略 ， 即 选取 每 个 基因 的 经 验 散 度 和 拟 合 得 到 的 散 度 
趋势 线 取 值 中 最 大 的 作为 最 终 的 散 度 估计 值 , 因此 DESeq 往往 选 出 更 少 的 差异 表达 基因 ( 转 
录 本 )。DESeq 由 于 可 以 利用 同一 个 样本 基因 间 的 数据 估计 散 度 ， 而 不 一 定 需 要 重复 样本 来 
计算 ， 因 此 可 以 直接 用 于 无 重复 实验 (例如 1 个 处 理 加 1 个 对 照 ) 的 表达 差异 分 析 。 前 期 
研究 表明 ， 软 件 包 edgeR、DESeq 总 体 上 表现 差不多 , 没有 哪个 更 优越 。 在 菊花 转录 组 研究 
中 ， 考 虑 到 DESeq 包 代码 更 简洁 ， 因 而 使 用 该 包 来 确定 差异 表达 基因 LA 6-10， 注 意 需 
要 与 例 6-9 一 起 运行 )。 
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例 6-10: 
# 安装 并 加 载 所 需 R 包 。 
source('http://Bioconductor.org/biocLite.R"); 
biocLite("DESeq"); 
library(DESeq); 
# 只 用 100bp 的 样品 进行 计算 ，51bp 的 样品 不 选 。 
counts <- cbind(counts[, 1:3],counts[, 7:9]); 
# 设置 每 个 样品 的 实验 条 件 ，3 个 处 理 ，3 个 对 照 。 
сопаійопѕ=с(гер("Т", 3),гер("СК", 3)); 
# 创建 CountDataSet 对 象 (DESeq 包 的 核心 数据 结构 )。 
cds <- newCountDataSet(counts, conditions); 
# 估计 每 个 样本 的 Size Factor， 标 准 化 ， 标 准 化 后 数据 存 于 对 和 象 cds。 
cds <- estimateSizeFactors(cds); 
# 显示 每 个 样本 的 Size Factor， 这 一 步 可 以 跳 过 去 。 
sizeFactors(cds); 
# 散 度 估计 。 
cds <- estimateDispersions(cds, method = "per-condition", sharingMode="maximum"); 
# 显示 散 度 ， 这 一 步 可 以 跳 过 去 。 
dispTable(cds); 
# 检验 "T-CK" 差 异 ， 结 果 存 入 对 象 et。 
et <- nbinomTest(cds, "Т", "СК"); 
# 输出 表达 差异 分 析 的 结果 。 
write.table(et,file = "T-CK.table",sep = "\t"); 
# 查看 对 象 cds 的 内 容 。 
cds 
CountDataSet (storageMode: environment) 
аѕѕаураѓа: 98180 features, 6 samples 
element names: counts 
protocolData: попе 
phenoData 
sampleNames: ТІ T2 ... СКЗ (6 total) 
varLabels: sizeFactor condition 
varMetadata: labelDescription 
featureData 
featureNames: UN00001 UN00002 ... UN98180 (98180 total) 
fvarLabels: disp_CK disp_T 
fvarMetadata: labelDescription 
experimentData: use 'experimentData(object)' 
Annotation: 
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例 6-10, 是 使 用 DESeq 包 分 析 2 个 条 件 下 3 次 生物 学 重复 的 基因 差异 表达 的 完整 程序 
代码 。 其 中 有 三 点 需要 特别 注意 : (DCountDataSet 是 DESeq 的 核心 数据 结构 ， 它 包括 了 从 
样本 信息 到 所 有 基因 表达 值 等 各 类 重要 信息 ; @ 散 度 估 计 函 数 estimateDispersions 有 2 个 重 
要 参数 需要 设 定 ; @ 如 何 读 懂 最 后 输出 的 结果 文件 。 

散 度 估计 函数 是 整个 分 析 的 核心 ， 它 有 2 个 重要 参数 即 “method” 和 “sharingMode”， 
其 设 定 对 结果 影响 较 大 。“method” 提 供 了 4 种 方式 从 基因 表达 数据 中 来 估计 每 个 基因 ( 转 
KE) 各 自 的 经 验 散 度 :“blind” 表 示 不 区 分 条 件 ， 从 所 有 条 件 下 的 所 有 的 样品 数据 中 估计 
一 个 统一 的 经 验 散 度 用 于 各 个 实验 条 件 ， 这 个 方法 特别 适合 无 生物 学 重复 的 情况 ， 一 个 极 
端的 情况 就 是 一 个 处 理 和 一 个 对 照 〈 俗 称 1 对 1);“pooled” 只 用 有 生物 学 重复 条 件 下 的 样 
品 数据 来 估计 一 个 统一 经 验 的 散 度 用 于 各 个 实验 条 件 , 假如 处 理 组 和 对 照 组 是 3 对 1， 就 用 
3 个 处 理 组 的 数据 来 估计 散 度 ;“pooled-CR” 使 用 了 瑞 德 考 克 斯 调整 的 轮廓 似 然 〈Cox-Reid 
adjusted profile likelihood, CR-APL) 最 大 化 方法 来 估计 经 验 散 度 ;“per-condition” 是 真正 
有 生物 学 重复 的 散 度 估计 方法 ， 它 为 每 一 个 实验 条 件 用 其 全 部 样品 数据 估计 一 个 经 验 散 度 。 
“blind” 和 “per-condition” 是 最 常用 的 方法 ， 前 者 处 理 无 生物 学 重复 的 情况 ， 后 者 处 理 有 生 
物 学 重复 〈 最 低 为 3 次 ) 的 情况 。 由 于 实验 重复 严重 不 足 ， 散 度 估计 的 变异 性 要 大 于 真实 
情况 ， 一 个 简单 的 办 法 就 是 利用 基因 间 的 关系 信息 来 拟 合 一 条 散 度 -均值 平滑 曲线 ， 以 尽量 
减少 散 度 估计 的 变异 性 (图 6-13)。 这 样 ， 每 个 基因 就 得 到 了 2 个 散 度 估计 值 ， 一 个 是 来 自 
实际 数据 的 经 验 散 度 〈 图 6-13 黑色 圆 点 )， 另 外 一 个 是 拟 合 曲线 上 的 散 度 值 〈 图 6-13 红色 
曲线 )。 因 此 ，“sharingMode” 提 供 了 3 种 方法 来 确定 究竟 最 后 用 哪个 散 度 :“gene-est-only” 
表示 使 用 各 自 的 经 验 散 度 ;“fit-only” 表 示 使 用 拟 合 曲 线 上 的 值 ;“maximum” 表 示 取 前 2 
种 散 度 之 间 的 最 大 值 ， 这 是 最 保守 的 估计 默认 设置 )， 这 就 是 为 什么 DESeq 找到 的 差异 表 
达 基 因 相对 较 少 的 原因 。 菊 花 转 录 组 在 两 个 实验 条 件 下 各 有 3 次 生物 学 重复 (简称 3 对 3), 
因此 采用 了 “per-condition” 来 估计 经 验 散 度 ， 而 且 最 后 选取 了 “maximum” 方 式 来 使 用 两 
种 散 度 ， 即 选取 图 6-13 红色 曲线 以 上 部 分 。 


1е+00 


1е-02 


fitnfo(cds)$perGeneDispEsts 
1e-04 


1е-06 


1 100 10000 


rowMeans{counts(cds, normalized = TRUE)) 


图 6-13” 拟 合 的 散 度 -均值 曲线 
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负 二 项 分 布 检验 函数 nbinomTest 检验 两 个 条 件 下 基因 表达 变化 是 否 显著 ， 最 终 的 结果 
输出 是 一 个 包括 9 列 数据 的 表格 ， 列 名 比 内 容 向 左 一 位 〈 图 6-14)。 第 1 列 是 序列 编号 ; 第 
2 列 “id” 是 转录 本 名 称 ; 第 3 列 “baseMean” 是 归 一 化 后 该 转录 本 在 所 有 样品 中 的 表达 均 
值 ; Ж 4 列 “baseMeanA” 是 归 一 化 后 该 转录 本 在 第 1 个 条 件 下 的 表达 均值 ; 第 5 列 
“baseMeanB ”是 归 一 化 后 该 转录 本 在 第 2 个 条 件 下 的 表达 均值 ; 第 6 列 “foldChange” 是 倍 
数 变化 ， 即 2 个 条 件 下 均值 之 比 ， 来 自 第 5 列 除 以 第 4 列 ; 第 7 列 “log2FoldChange” 是 以 
2 为 底 的 对 数 化 的 倍数 变化 ; 第 8 列 “pval” 是 负 二 项 分 布 检验 得 到 的 P 值 ; 第 9 列 “padj” 
是 调整 后 的 P 值 。 选 取 差 异 表达 基因 时 ， 一 般 设 定 “padj” 阔 值 为 0.05 1 0.01, BELE 
的 转录 本 都 可 以 看 作 差 异 表达 基因 。 


id baselean ЬавейеапА ЬавейеапВ foldChange log2FoldChange pval padj 


1 1000001 180. 43947 201. 234264 159. 6446807 0. 793327527 -0. 33401 0. 052238 0. 160899 
2 1000002 32. 723843 29. 1532629 35, 69442334 1.199680971 0. 2626651 0. 484324 0. 748378 
3 10000005 13. 085351 10.1300592 16. 04064331 1. 583469841 0. 663089 0. 250736 0. 503569 
4 1000004 7. 0610443 4. 42191556 9. 70017297 2. 193658573 1.133539 0.186554 0, 415111 
5 1000005 18. 897695 24. 6230211 15. 17236893 0. 670660600 -0.57635 0. 148967 0. 353033 
6 10100006 245, 55267 272. 537664 218.567672 0. 801972554 -0.31838 0. 047285 0.148448 
T UN00007 225. 69763 249, 702075 201. 6931756 0. 807735279 -0.30805 0. 057926 0.174511 
8 10100008 528, 89322 476. 367196 581. 419248 1. 22052747 0. 287505 0. 05309 0. 163047 
9 0000009 223. 94955 232. 080139 215. 8189603 0. 929932916 -0.1048 0. 470189 0. 73545 
10 10000010 90.107168 82. 7033048 97. 51103029 1,179046358 0. 23762 0. 29273 0. 557116 
11 1000011 11. 352459 21. 0500855 13.654833 0. 648683019 -0.62441 0.142212 0. 341776 
12 10000012 84. 236801 78. 5540999 89, 91950131 1.144682473 0.194947 0. 387058 0. 659425 
13 1000013 84. 214157 81. 1373676 87. 29094595 1. 075841494 0. 105466 0.673434 0. 88505 
14 1000014 12. 33301 14. 6848509 9. 981188627 0. 679693805 -0.55704 0. 269647 0. 528122 
15 1000015 369. 2085 449. 410006 289. 0069947 0. 643080908 -0. 63693 3. 22Е-05 0. 000247 
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6.5.2 RNA-seq 数据 的 其 他 分 析 


除了 差异 表达 分 析 ，RNA-seq 数据 分 析 还 包括 转录 组 的 注释 、SNP 或 杂 合 位 点 分 析 和 
RNA 编辑 分 析 等 。 有 参考 序列 的 转录 组 注释 可 以 直接 使 用 参考 序列 的 注释 ， 没 有 参考 序列 
(从 头 组 装 的 ) 转录 组 一 般 使 用 Blast2go 等 软件 注释 到 NCBI NR 数据 库 上 ， 这 里 不 再 详 述 。 
无 参 的 SNP 或 杂 合 位 点 分 析 ， 主 要 是 将 所 有 读 段 全 部 比 对 到 组 装 得 到 的 转录 组 上 ， 然 后 根 
据 所 有 转录 本 每 个 位 点 上 的 碱 基 种 类 比例 ， 来 鉴定 该 位 点 是 纯 合 还 是 杂 合 。 这 部 分 要 注意 
的 是 计算 碱 基 种 类 比例 前 要 去 除 重复 读 段 (Duplicate reads)， 而 且 还 要 考虑 测序 及 比 对 错误 
等 因素 带 来 的 影响 。 由 于 RNA-seq 数据 提供 了 较为 丰富 的 序列 信息 ， 还 可 以 进行 多 种 其 他 
分 析 ， 例 如 鉴定 转录 因子 和 非 编 码 RNA， 以 及 使 用 链 特 异性 的 RNA-seq 数据 鉴定 反 义 基 因 
等 。 由 于 这 些 涉及 更 多 的 生物 学 背景 ， 这 里 不 再 详 述 。 在 RNA-seq 数据 分 析 过 程 中 ， 还 有 
大 量 的 统计 和 画图 工作 ， 这 些 都 可 以 利用 К 和 Bioconductor 各 类 包 编 程 解决 。 最 后 用 一 个 
统计 转录 组 长 度 分 布 的 小 程序 〈 例 6-11) 结束 本 章 内 容 。 
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例 6-11: 

# 指定 工作 目录 ， 该 目录 包括 所 有 的 数据 文件 。 
setwd("C:/workingdirectory"); 

# 安装 并 加 载 所 需 R 包 。 

library(ShortRead); 

library(ggplot2); 

# 指定 转录 组 数据 文件 名 称 。 

file="Trinity.fasta"; 

# 读 入 fasta 文件 。 

ѕедѕ <- readFasta(file); 

# 从 网 上 下 载 程序 源 代码 文件 contigStats.R。 
source("http://faculty.ucr.edu/~tgirke/Documents/R_BioCond/My_R_Scripts/contigStats.R"); 
# 统计 长 度 分 布 等 信息 。 

N <- list(seqs=width(seqs)) ; 

reflength <- sapply(N, sum) ; 

contigStats(N=N, reflength=reflength, style=" ggplot2"); 
stats <- contigStats(N=N, reflength=reflength, style="data"); 
# 显示 统计 结果 。 

stats[["Contig_Stats"]]; 

# 输出 统计 结果 。 


write.table(t(stats[["Contig_Stats"]]),file="unigenes.dis"); 
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Жж R 的 高 级 语法 与 如 何 创 建 RR 包 


7.1 R 的 高 级 语法 


7.1.1 数据 类 型 及 相互 转换 


R 语言 数据 类 型 有 两 种 : 基本 数据 类 型 和 复合 数据 类 型 〈 图 7-1) 


图 7-1 R 数 据 类 型 


R 编程 很 大 的 一 部 分 工作 就 是 各 种 变量 类 型 的 相互 转换 ， 以 满足 将 要 调用 的 函数 的 需 
要 。R 函数 只 能 接受 指定 数据 类 型 的 变量 ， 否 则 函数 不 能 执行 ， 并 报错 。 可 以 用 is.* 函数 
来 判断 数据 是 否 属 于 某 种 类 型 ， 不 同类 型 之 间 可 以 通过 as.* 函数 转换 ， 这 里 的 “*” 表 示 某 
PPARA A 7-1)。 

(1) 基本 数据 类 型 及 相互 转换 


基本 数据 类 型 包括 普通 和 特殊 向 量 ， 后 者 可 以 看 作 是 前 者 的 特例 。 向 量 是 相同 类 型 的 
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元 素 组 成 的 有 序 集合 ， 这 个 “ 序 ” 体 现 为 可 以 通过 下 标 索引 来 访问 集合 中 的 元 素 。 普 通 向 
量 根据 其 组 成 元 素 的 不 同 ， 分 为 六 种 : 整数 型 (Integer)、 实数 型 (Double)、 WHA (Logical), 
字符 型 (Character) HAA! (Complex) 以 及 原始 型 (Raw)。 整 数 型 和 实数 型 统称 为 数值 
型 (Numeric)，R 的 字符 型 向 量 的 元 素 可 以 是 字符 或 者 字符 串 〈 见 例 7-1)。 


| 7-1: 
Vectorl = c(0,1,2,1,-1) # 生成 一 个 数值 向 量 。 
Vectorl # 查看 向 量 内 容 。 


0 01 2 1-1 

is.numeric(Vectorl) # 判断 是 否 为 数值 向 量 。 

[1] TRUE 

as.character(Vectorl) # 转化 为 字符 向 量 。 

[0 "1" "а" ту" че 

data.class(Vector1) # 查看 变量 类 型 。 

[1] "character" 

as.logical(Vector1) # 转化 为 逻辑 向 量 ， 只 有 0 转换 为 FALSE。 
[1] FALSE TRUE TRUE TRUE TRUE 


(2) 两 种 特殊 类 型 的 向 量 


R 语 言 设置 了 两 种 特殊 类 型 的 辣 量 ,分 别 是 因子 向 量 〈(Factor vector) 和 索引 向量 (Index 
vector)， 它 们 的 类 型 、 模 式 和 存储 模式 与 整 型 向 量 一 致 。 
因子 向 量 对 向 量 中 的 离散 元 素 进 行 分 组 : 相同 的 归 为 一 组 ， 每 组 为 一 个 水 平 〈(Level)， 
相当 于 统计 中 的 分 类 变量 。 因 子 向 量 分 为 无 序 和 有 序 两 种 ， 它 们 主要 在 一 些 统计 分 析 中 起 
作用 。 


例 7-2: 

Vectorl = с(0,1,2,1,-1) # 生成 一 个 数值 向 量 。 
Vectorl<-as.factor(Vectorl) # 数值 向 量 转换 成 为 因子 向 量 。 
print(Vector1) # 显示 向 量 内 容 。 

1101214 # 这 个 向 量 包括 5 个 元 素 ， 属 于 4 个 水 平 。 
Levels: -1012 

levels(Vector1) # 也 可 以 只 显示 因子 向 量 的 水 平 。 


[1] "-1" "o" "1" "2" 

Vectorl<-ordered(Vectorl) # 将 因子 向 量 转换 成 有 序 因子 向 量 。 
print(Vector1) 

[100121 -1 

Levels: -1<0<1<2 # 4 个 水 平 从 小 到 大 排序 
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索引 向 量 (Index vector)， 也 叫 下 标 向 量 ， 它 的 主要 作用 就 是 数据 选择 。 例 如 可 以 在 
向 量 名 后 面 的 方 括号 中 加 入 索引 向 量 以 得 到 向 量 的 子 集 。 索 引 向 量 可 以 是 正 整 数 向 量 、 负 
整数 向 量 、 边 辑 向 量 和 字符 串 向 量 。 


例 7-3: 

Vectorl = с(0,1,2,1,-1) # 生成 一 个 数值 向 量 。 

Vectorl[2] # 取出 向 量 的 第 2 个 元 素 。 

[1] 1 

Уесіог1[2:4] # 在 索引 号 中 间 加 冒号 构成 索引 向 量 ， 以 取出 第 2 到 第 4 个 元 素 。 
[1]121 

Vectorl[-4] # 负 整 数 向 量 表示 不 要 某 个 元 素 。 

[1] 0 1 2-1 

Vector1[-(1:2)] # ТАЖ п Жел ЛУН 2 个 元 素 。 

0] 21-1  # 只 保留 了 后 3 个 元 素 。 


当 用 风 辑 向 量 来 作为 索引 向 量 时 ， 可 以 实现 复杂 的 数据 选择 功能 。 


例 7-4: 
Vector2<-c (0, 1, 2, МА, 4, 5, -1) # 生成 一 个 数值 向 量 Vector2。 
Vector2[Vector2>0] # 索引 使 用 逻辑 向 量 ， 只 取出 大 于 0 的 元 素 。 

[1] 1 2NA 4 5 
Vector2[!is.na(Vector2)] # 选取 Vector2 中 不 为 “NA” 的 值 。 
[1] 0 1 24 5 -1 

lis.na(Vector2) # 显示 作为 索引 问 量 的 逻辑 癌 量 。 
[1] TRUE TRUE TRUEFALSE TRUE TRUE TRUE 
Vector2[(!is.na(Vector2)) & Vector2 >0] # 同时 满足 两 个 条 件 的 元 素 。 
[111245 


(3) 复合 数据 类 型 


为 了 满足 数据 分 析 的 需要 ，R 还 提供 了 更 为 复杂 的 数据 结构 ， 即 复合 数据 类 型 。 它 也 是 
由 向 量 组 成 , 主要 包括 四 种 : XH Array) ERE Matrix), 列表 (List) 和 数据 框 (Data.frame)。 
数组 和 矩阵 的 类 型 就 是 它们 所 包括 向 量 的 元 素 的 类 型 ， 列 表 和 数据 框 则 都 是 列表 类 型 。 

数组 (Aray) 是 一 种 多 维 的 向 量 ， 和 矩阵 Matrix) 是 特殊 的 数组 。 数 组 的 维 数 则 可 以 
从 1 到 n(n>=2)， 和 矩阵 的 维 数 固定 为 2。 在 大 部 分 情况 下 ， 两 者 没有 差别 ， 除 了 某 些 特殊 情 
况 ， 例 如 矩阵 有 和 矩阵 运算 ， 数 组 则 没有 。 


例 7-5: 
а = array(1:12,dim=c(3,4)) 
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print(a) 
[1] [,2] [3] LA 

U] 1 4 7 10 

2] 2 5 8 1 

B] 3 6 9 12 

上 例 用 一 个 有 12 项 元 素 的 向 量 构建 了 一 个 3 行 4 列 的 数组 。 数 组 元 素 可 以 通过 数组 名 
及 其 后 方 括号 中 用 逗号 隔 开 的 下 标 访问 ， 下 标 数 量 等 于 数组 的 维度 。 

а[2,2] # 提取 2 维 数组 a 中 的 ， 第 2 行 第 2 列 元 素 。 

[1]5 

也 可 以 提取 某 一 行 或 某 一 列 中 的 一 个 或 多 个 元 素 。 例 如 要 提取 第 2 行 第 1、2 列 的 元 素 : 

a[2,1:2] 

[1125 

列表 Cist): 可 以 看 作 是 R 对 象 ( 元 素 ) 的 集合 ， 这 些 元 素 可 以 是 数据 也 可 以 是 函数 
(本 书 不 涉及 此 种 情况 )。 列 表 中 含有 的 数据 结构 可 以 是 任意 类 型 向量 、 数 组 、 和 矩阵 或 列 
表 等 )， 并 不 要 求 维 数 相同 ， 是 最 为 灵活 的 数据 结构 。 

数据 框 (Data.frame): 数据 框 是 列表 的 特殊 形式 ， 与 列表 的 区 别 有 主 要 两 点 : 它 的 元 
素 不 能 包括 函数 ;所 包括 的 数据 类 型 (向 量 、 数 组 、 和 矩阵 或 列表 等 ) 必须 维 数 〈 列 ) 相同 。 
数据 框 是 处 理 数据 最 常用 也 是 最 佳 的 方式 ， 一 般 情 况 下 ， 它 的 每 一 行 是 一 个 数据 样本 ， 每 
一 列 是 一 个 特征 (变量 ), 与 关系 数据 库 中 的 表 的 概念 类 似 。 R 语言 有 很 多 函数 可 以 很 方便 
地 直接 处 理 这 些 “ 表 ” 最 常见 的 创建 数据 框 的 方式 是 调用 函数 read.table 读 入 外 部 数据 ， 
数据 框 中 的 字符 向 量 将 被 强制 转化 为 因子 向 量 。 数 据 框 兼 有 和 矩阵 和 列表 的 性 质 ， 用 dim K 
数 可 以 得 到 数据 框 的 行 和 列 ， 而 列表 的 dim 是 NULL。 下 面 根据 一 个 内 置 的 芒 尾 花 数 据 集 
iris 来 介绍 数据 框 的 一 些 特点 。 


例 7-6: 
data(iris); 
head(iris); 

Sepal.Length Sepal.Width Petal.Length Petal.Width Species 
1 5.1 3.5 1.4 0.2 setosa 
2 4.9 3.0 1.4 0.2 setosa 
3 4.7 3.2 1.3 0.2 setosa 
4 4.6 3.1 1.5 0.2 setosa 
5 5.0 3.6 1.4 0.2 setosa 
6 5.4 3.9 1.7 0.4 setosa 


从 例 7-6 结果 中 可 以 看 到 ，iris 数据 集中 每 行 均 表示 一 个 花 的 样品 ， 而 各 列 则 反映 了 花 
的 各 种 特征 :“sepallength” 和 “sepal.width” 分 别 表示 苯 片 的 长 度 和 宽度 ; “petallength” 
和 “petal.width” 分 别 表示 花瓣 的 长 度 和 宽度 ; 而 “species” 则 表示 花 的 种 属 。 前 四 列 为 数 
值 向 量 ， 最 后 一 列 为 表示 类 别 的 因子 向 量 。 
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71.2 向 量 运 算 


R 语言 的 基本 运算 是 向 量 运算 。 向 量化 计算 不 但 使 代码 更 为 简洁 、 高 效 和 易于 理解 ， 而 
且 更 重要 的 是 ， 由 于 向 量 运算 避免 使 用 循环 ， 而 大 大 提高 了 计算 速度 。 与 此 相反 ,R 中 的 循 
环 操作 却 是 非常 低 效 的 。 因 此 应 该 尽 可 能 采用 向 量化 运算 ， 避 免 使 用 循环 。 

与 Matlab 的 向 量 运 算 不 同 , R 的 向 量 运算 不 需要 参与 运算 的 向 量 长 度 相 同 , 如 果 长 度 
不 同 ， 运 算 结 果 《〈 向 量 ) 将 与 参与 运算 的 最 长 向 量 取 齐 。 运 算 中 ， 较 短 的 向 量 会 根据 它 的 
长 度 被 重复 使 用 若干 次 (不 一 定 是 整数 次 ) ， 直 到 与 长 度 最 长 的 向 量 相 匹 配 。 


例 7-7: 

x<-c (0, 1, 2, МА, 4, 5, -1) # 生成 一 个 7 个 元 素 的 数值 向 量 。 

x[1:10] # 选择 x 的 前 10 个 元 素 ， 不 足 部 分 以 NA 补 齐 。 

1] 0 1 2NA 4 5-1 МАМАМА # 结果 向 量 的 长 度 和 索引 向 量 完 全 一 致 。 
x/2 # 分 母 与 分 子 维 数 不 同 ， 较 短 的 被 重复 使 用 。 

[1] 00 0.5 1.0 МА 2.0 2.5-0.5 


R 还 包含 了 许多 高 效 的 向 量 运算 函数 ,这 也 是 它 不 同 于 其 他 软件 的 一 个 显著 特征 。R 中 
的 apply 族 函 数 专门 负责 向 量化 运算 ， 它 主要 包括 apply, sapply, lappy 和 tapply 等 函数 ， 
这 些 函数 在 不 同 的 情况 下 能 高 效 地 完成 复杂 的 数据 处 理 任务 ， 但 角色 定位 又 有 所 不 同 。 

apply 函数 的 处 理 对 象 是 矩阵 或 数组 ， 它 逐 行 或 逐 列 地 处 理 数据 ， 其 输出 的 结果 是 一 个 
向 量 或 矩阵 。 下 面 的 例子 即 对 iris 数据 集 前 4 列 按 列 求 均值 。 要 注意 的 是 与 其 他 函数 不 同 ， 
apply 函数 并 不 能 明显 改善 计算 效率 ， 因 为 它 本 身 内 置 为 循环 运算 。 


apply(iris[,1:4], 2, mean) 
Sepal.Length Sepal.Width Petal.Length Petal.Width 
5.843333 3.057333 3.758000 1.199333 


lappy 的 处 理 对 象 是 向 量 、 列 表 或 其 他 对 象 ， 它 将 处 理 对 象 中 的 每 个 元 素 作 为 参数 ， 输 
入 到 指定 函数 中 处 理 ， 生 成 的 结果 的 格式 为 列表 。 作 为 特殊 的 列表 ， 数 据 框 的 列 看 作 列表 
中 的 元 素 处 理 。 下 面 的 例子 即 对 iris 数据 的 前 4 列 ， 按 列 算出 中 位 数 与 标准 差 。 


lapply(iris[,-5], FUN = function(x) list(median = median(x), sd = sd(x))) 
$Sepal.Length 

$Sepal.Length$median 

[1] 5.8 


$Sepal.Length$sd 
[1] 0.8280661 
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$Sepal.Width 
$Sepal.Width$median 
[1] 3 


$Sepal.Width$sd 
[1] 0.4358663 


$Petal.Length 
$Petal.Length$median 
[1] 4.35 


$Petal.Length$sd 
[1] 1.765298 


$Petal.Width 
$Petal.Width$median 
[1] 1.3 


$Petal.Width$sd 
[1] 0.7622377 


sapply 可 能 是 使 用 最 为 频繁 的 向 量化 函数 了 ， 它 与 lappy 非常 相似 ， 但 其 输出 格式 不 是 
列表 ， 而 是 矩阵 ， 结 果 显 示 一 目 了 然 。 
sapply(iris[,-5], FUN = function(x) list(median = median(x), sd = $0(х))) 
Sepal.Length Sepal.Width Petal.Length Petal.Width 
Median 5.8 3 4.35 1.3 
sd 0.8280661 0.4358663 1.765298 0.7622377 


tapply 的 功能 则 又 有 不 同 ， 它 是 专门 用 来 处 理 分 组 数据 的 ， 其 参数 要 比 sapply 多 一 个 ， 
输出 结果 是 数组 格式 。 还 是 以 iris 数据 集 为 例 ， 全 部 数据 可 以 根据 “Species” 列 中 的 三 种 类 
型 分 组 ， 分 别 计算 三 种 花 的 苯 片 宽度 的 均值 。 下 面 代码 还 使 用 了 with 函数 ， 目 的 是 直接 操 
作 数 据 框 中 的 列 名 。 
with(iris, tapply(Sepal.Width, INDEX = Species, FUN = теап)) 
setosa versicolor virginica 
3.428 2.770 2.974 
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与 tapply 功能 非常 相似 的 还 有 aggregate 和 by 函数 , 前 者 的 输出 结果 是 数据 框 格式 ， 后 
者 是 “by” 格 式 。 
with(iris,aggregate(Sepal.Width,by=list(Species),FUN=mean)) 
Стоир.1 х 
1 setosa 3.428 
2 versicolor 2.770 
3 virginica 2.974 


with(iris,by(Sepal.Width,INDICES=list(Species),FUN=mean)) 
: setosa 

[1] 3.428 

: versicolor 

[1] 2.77 

: Virginica 

[1] 2.974 


另外 , 还 有 一 个 非常 有 用 的 函数 replicate， 它 可 以 将 某 个 函数 重复 运行 N 次 。 下 面 的 例 
子 可 以 用 来 生成 较 复杂 的 随机 数 在 ;建立 一 个 函数 ， 模 拟 扔 两 个 山 子 的 点 数 之 和 ; 然后 重 
复 运行 10 000 次 。 

вате <- function() { 

п <- ѕатр1е(1:6, 2, replace =T) # 模拟 2 个 6 面 骨 点 数 。 
return(sum(n)) # 返回 两 个 般 子 点 数 之 和 。 
} 
result <- replicate(n = 10000, гате) # 重复 运行 10 000 次 。 


上 面 讲 到 的 几 种 向 量化 函数 可 以 满足 绝 大 多 数 的 应 用 ， 如 果 对 数据 操作 有 更 复杂 的 要 
求 ， 可 以 使 用 reshape2 包 和 plyr 包 中 的 函数 。 


7.1.3 函数 

本 书 1.4.3 讲 到 ， 用 户 可 以 根据 实际 需求 编写 用 户 自 定义 函数 ， 简 称 自 定义 函数 。R 在 
编写 函数 时 ， 与 C/C++ 等 语言 有 很 多 习惯 上 的 不 同 ， 如 无 需 声 明 变量 的 类 型 ， 语 名 之 间 可 
以 不 用 “; ”分 割 , 直接 使 用 返回 值 等 。 通过 1.4.3 中 的 add.diff 函数 的 定义 看 一 下 这 些 不 同 。 


add.diff <- function (х,у) { 
add <-x +y; # 求 和 运算 。 
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diff <-x-y; # 使 用 “;” 更 规范 。 

c(add,diff); # 直接 使 用 返回 值 ， 不 用 return 函数 。 

} 

函数 内 部 的 变量 叫做 函数 的 参数 ， 又 分 为 虚 参 与 实 参 。 虚 参 出 现在 函数 定义 中 ， 在 整 
个 函数 体内 都 可 以 使 用 ， 离 开 该 函数 则 不 能 使 用 。 实 参 则 出 现在 主 调 函 数 中 ， 进 入 被 调 函 
数 后 ， 实 参 变量 也 不 能 使 用 。 虚 参 和 实 参 的 功能 是 做 数据 传递 。 发 生 函 数 调用 时 ， 主 调 函 
数 把 实 参 的 值 传送 给 被 调 函数 的 虚 参 ， 从 而 实现 主 调 函数 向 被 调 函 数 的 数据 传送 。 函 数 的 
虚 参 完全 是 按 值 传递 的 ， 改 变 虚 参 的 值 不 能 改变 对 应 实 参 的 值 。R 的 函数 调用 非常 灵活 ， 下 
面 是 一 个 常见 的 调用 格式 。 


add.diff(5,3) 

[1]82 | 

可 见 , 在 有 多 个 输入 参数 时 ，R 函数 可 以 根据 参数 顺序 来 确定 输入 值 ， 而 不 需要 指定 虚 
参 的 参数 名 。 有 些 情况 下 ， 函 数 中 的 参数 可 以 事先 给 一 个 缺 省 值 。 这 样 ， 函 数 在 调用 时 ， 
可 以 给 出 全 部 、 部 分 或 者 不 给 出 虚 参 的 参数 名 。 


add.diff <- function (x=5, у=3) { 
айі <-x+y; # 添加 注释 。 
diff<-x-y; # 使 用 “; ”更 规范 。 
c(add,diff); # 直接 使 用 返回 值 ， 不 用 retum 函数 。 
} 
add.diff() 
[1] 82 
ааа.а (5, ) 
[1182 
add.diff( ,3) 
[1182 
ааа.аі х =7, у=3) 
1110 4 
R 也 可 以 从 文件 中 调用 已 定义 的 函数 或 程序 ,该 调用 方式 继承 于 S 语 言 .使 用 函数 source 
(“C:\Mfilename.r”) 即 可 运行 文件 “filename.r” 中 的 程序 。 文 件 名 “fliename” 不 需要 与 其 保 
存 的 函数 的 函数 名 保持 一 致 , 而 且 一 个 文件 中 可 以 保存 多 个 函数 ，source 一 次 文件 便 可 调用 
文件 中 所 有 函数 。 如 上 例 ， 函 数 add.diff 可 以 先 保 存 为 文件 “add_diff.r”， 存 入 指定 工作 目 
录 “C:/workingdirectory” 然后 可 以 运行 下 列 代码 : 


Setwd("C:Nworkingdirectory ); 
source("add_diff.r"); 
add.diff(5,3) 

[1] 82 
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7.1.4 循环 与 条 件 


循环 是 基本 的 流程 控制 语句 , ТЕЕ 语言 中 通常 可 以 用 for 或 while 语句 来 控制 循环 。for 
循环 的 基本 格式 如 下 : 

for (п in х) {expr} 

上 面 语 句 中 ，n 为 循环 变量 ，x 通常 是 一 个 多 维 向 量 。n 在 每 次 循环 时 ， 从 x 中 顺序 取 
值 ,代入 到 后 面 的 expr 语句 中 进行 运算 ,下 面 的 例子 即 是 如 何 用 for 循环 计算 30 个 Fibonacci 
数 。 


x <- c(1,1) 
for (i in 3:30) { 
x[i] <- x[i-1]+x[i-2] 
} 
如 果 不 能 确定 循环 次 数 ， 需 要 用 while 语句 来 控制 循环 : 
while (condition) {expr} 
在 condition 条 件 为 真 时 ， 执 行 大 括号 内 的 expr 语句 。 下 面 的 例子 即 是 以 while 循环 来 
计算 30 个 Fibonacci 数 。 


х <- с(1,1) 

і<- 3 

while (i <= 30) { 
x[i] <- х[1-1]+х[1-2] 
1<-1+1 


} 
条 件 分 支 语句 也 是 R 语言 中 必 不 可 少 的 流程 控制 方法 ， 基 本 格式 为 : 
if (conditon) {ехрг1 } else {expr2} 
站 语句 用 来 进行 条 件 控 制 ， 以 执行 不 同 的 语句 。 若 condition 条 件 为 真 ， 则 执行 exprl， 
否则 执行 expr2。 下 面 的 一 个 简单 的 例子 是 要 找 出 100 以 内 的 质数 。 

х <- 1:100 
у <- rep(T,100) 
for (i in 3:100) { 
if (айї%%(2:(1-1))!=0)){ 

УШ <- TRUE 

} else {у[1] <- FALSE 

} 

} 
print(x[y]) 
[1]1235711 13 17 19 23 29 31 3741 43 47 53 59 61 67 71 73 79 
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[24] 83 89 97 

在 上 面 例 子 里 ，all 函数 的 作用 是 判断 一 个 逻辑 序列 是 否 全 为 真 ，%% 运 算 符 返 回 余数 。 
在 if/else 语句 中 一 个 容易 出 现 的 错误 就 是 else 没有 放 在 } 的 后 面 ， 例 如 执行 下 面 的 例子 就 会 
出 现 错 误 。 

logic = 3 

х<- с(2,3) 

if (logic == 2){ 

у <- х^2 

} 

else { 

y<-x^3 

} 

Show(y) 

除了 常规 的 if/else 条 件 语句 ，R 还 提供 了 简易 的 ifelse 函数 : 

х <- seq(1:5) 

ifelse(x < 3, “Т”, “Е”) 

[1] TT TE Е? “Б” 

下 面 是 一 个 综合 使 用 循环 和 条 件 的 示例 。 如 果 想 了 解 iris 数据 集中 ， 三 种 类 型 的 花 中 
“setosa” 子 类 花瓣 长 度 “petal.L” 的 均值 。 那 么 一 种 方法 就 是 循环 查询 每 个 样本 ,判断 种 类 
是 否 “setosa” 然 后 累积 求 和 。 下 面 的 代码 就 是 用 for 循环 加 上 这 条 件 判断 实现 的 。 

ааѓа(їгіѕ) 

х=0  # 初始 化 变量 。 

п= 0 

for (i іп 1:150) { 

if (їгіѕ$8ресіеѕ[1] == 'setosa') { # 判断 Species 是 否 是 ”setosa”。 
n=n+1 
x = х + iris$Petal.Length[i] 
} 


} 
x/n 


[1] 1.462 

上 面 的 代码 中 ， 首 先 对 两 个 变量 初始 化 以 备 循环 中 使 用 。 接 下 来 的 for 循环 中 的 条 件 
表达 式 前 后 要 用 括号 , 其 中 的 变量 i 表示 从 1 到 150 之 间 变 化 。 之 后 的 循环 代码 段 前 后 要 使 
用 大 括号 。 在 if 条 件 判 断 语 句 中 ，== 和 > 一 样 为 逻辑 判断 符号 ， 判 断 两 边 变 量 是 否 相 等 ， 
如 果 为 真 则 执行 后 面 的 代码 段 。 


7.1.5 输入 输出 


输入 输出 在 数据 处 理 中 占有 重要 的 地 位 ,R 语言 中 提供 了 一 些 重要 的 输入 输出 函数 支持 
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多 种 输入 输出 形式 。 
(1) 读 取 键盘 输入 


如 果 只 有 很 少 的 数据 量 ， 可 以 直接 用 变量 赋值 的 方式 输入 数据 。 如 果 需 要 交互 方式 ， 
可 以 使 用 readline 函数 输入 单个 数据 , 但 要 注意 其 默认 输入 格式 为 字符 型 。 不 加 参数 的 scan 
函数 中 可 以 用 手动 输入 数据 ， 如 果 加 上 文件 名 则 是 从 文件 中 读 取 数 据 。 


(2) 读 写 表 格 文件 


读 取 本 地 表格 文件 是 最 常用 到 的 功能 , R 的 主要 函数 是 read.table。 函数 的 file 参数 设 定 
了 文件 路 径 ， 要 注意 在 Windows 环境 下 ， 路径 中 斜 杠 的 正确 用 法 (如 “C:/data/sample.txt”); 
header 参数 设 定 是 否 带 有 表 头 ;sep 参数 设 定 了 列 之 间 的 间隔 方式 。 该 函数 读 取 数 据 后 将 存 
为 数据 框 格式 ， 而 且 所 有 的 字符 将 被 转 为 因子 格式 ， 如 果 想 保留 为 字符 格式 ， 可 将 参数 
stringsAsFactors 设 为 FALSE. 与 之 类 似 的 函数 是 read.csv 专门 用 来 读 取 csv 格式 。write.table 
与 write.csy 函数 是 对 应 的 输出 函数 。 

第 3 章 例 3-1 F, RAŽ pattern_match 的 定义 中 ， 需 要 把 匹配 到 的 8 条 序列 信息 以 表格 
方式 输出 ， 因 此 有 语句 : 

write.table(as.vector(as.character(t(export))), file = "Ні _ sequences.fasta"，quote = F, 
row.names = Е, col.names = F) 

读 入 文件 的 语句 是 : 

read.table("Hit_sequences.fasta") 


(3) 读 取 网 页 


如 果 想 抓 取 网 页 上 的 茶 个 表格 , 那么 可 以 使 用 XML 包 中 的 readHTMLTable 函数 。 第 一 
章 例 1-1 为 了 绘制 地 震 地 图 ， 就 用 到 了 这 个 函数 。 

library(XML) 

url <-'http://data.earthquake.cn/datashare/globeEarthquake_csn.html' 

tables <- readHTMLTable(url,stringsAsFactors = FALSE) 


(4) 读 取 文 本 文件 


有 时 候 需 要 读 取 的 数据 存放 在 非 结 构 化 的 文本 文件 中 ， 例 如 电子 邮件 数据 或 微 博 数据 。 
这 种 情况 下 只 能 依靠 readLines 函数 ， 用 来 将 文档 转 为 以 行为 单位 存放 的 列表 格式 的 数据 。 
另外 一 种 情况 是 ， 某 种 格式 〈 如 生物 信息 中 的 fasta) 的 文件 不 能 被 自动 识别 ， 也 只 能 通过 
readLines 函数 逐 行 读 入 ， 自 行 解析 〈 见 第 三 章 例 3-1)。 


(5) 输出 到 屏幕 或 数据 库 等 


cat 函数 除了 可 以 在 屏幕 上 输出 之 外 ， 也 能 够 输出 到 文件 〈 见 第 一 章 例 3-1)。 此 外 ， 若 
要 与 MySQL 数据 库 交 换 数 据 ， 则 可 以 使 用 RMySQL 包 。 
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7.1.6 ”对象 和 类 


面向 对 象 语言 的 核心 概念 是 类 与 对 象 。 类 (Class) 定义 了 一 个 事物 ， 以 及 事物 的 属性 
(Attribute) 和 它 可 以 做 到 的 〈 它 的 行为 )。 后 者 在 程序 语言 层面 ， 通 常 称 为 方法 (Method). 
通过 类 ， 可 以 将 程序 〈 即 方法 ) 和 数据 《〈 即 属性 ) 封装 其 中 ， 以 提高 软件 的 重用 性 、 灵 活 
性 和 扩展 性 。 另 一 方面 ， 类 可 以 看 作 是 一 个 统一 模板 ， 而 对 象 是 指 类 的 某 一 个 具体 实例 ， 
是 抽象 与 具体 的 关系 , 两 者 应 该 严格 区 分 。R 是 非常 典型 的 面向 对 象 的 编程 (Object-oriented 
programming, OOP) 语言 ， 它 提供 了 大 量 的 内 置 的 基础 类 , 包括 了 前 面 介绍 的 数值 、 逻 辑 、 
字符 等 ， 并 且 在 此 基础 上 构成 了 一 些 复合 型 的 类 ， 包 括 和 矩阵 、 数 组 、 数 据 框 和 列表 。 除 了 
这 些 基 础 类 外 ， 用 户 还 可 以 基于 这 些 基础 类 ， 自 定义 新 的 类 。 

对 于 任何 一 个 对 象 ， 都 可 以 用 attributes 或 str 函数 来 查看 其 包括 的 所 有 属性 值 。 对 象 所 
属 的 类 ， 是 这 个 对 象 的 一 个 特殊 属性 ， 可 以 用 class 函数 来 查看 。 

class (iris) 

[1] "data.frame" 

attributes(iris) 

$names 

[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" 

[5] "Species" 


$row.names 
[1] 12345... 


$class 

[1] "data.frame" 

从 上 面 的 结果 可 以 看 到 iris 这 个 对 象 的 类 属于 Data.frame 类 ， 即 它 是 一 个 数据 框 对 象 。 
其 属性 有 三 个 ， 即 对 象 所 包括 的 列 名 (names)、 行 名 (row.names) 和 类 (class)。 所 有 的 对 
象 都 会 有 类 这 个 属性 ， 只 不 过 有 的 可 以 通过 attributes 函数 显示 出 来 ， 有 的 则 不 可 以 《例如 
array 类 )， 但 是 都 可 以 用 class 函数 查看 。 

R 是 典型 的 的 面向 对 象 语言 ， 其 中 的 数据 、 函 数 、 甚 至 图 形 都 是 对 象 。 下 面 再 用 一 个 简 
单线 性 回归 的 例子 来 进一步 了 解 对 象 和 类 的 概念 。 

x =runif(100) # 创建 两 个 数值 向 量 。 

y = rnorm(100)+5*x 

model = lm(y~x) # 用 线性 回归 创建 模型 ， 存 入 对 象 model. 

class(model) # 观察 所 属 的 类 。 

[1] "Im" 

attributes(model) # 提取 对 象 的 各 种 属性 。 

фпатеѕ 

[1] "coefficients" "residuals" "effects" "rank" 
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[5] "fitted.values” "assign" "ат" "df.residual" 
[9] "xlevels" "call" "terms" "model" 
$class 
[1] "Im" 


从 结果 中 可 以 看 到 ，attributes 函数 返回 了 两 个 属性 ,“names” 属 性 包括 了 线性 回归 得 
到 的 结果 ， 可 以 用 $ 符 号 提取 出 来 。 例 如 通过 lm$coefficients 可 以 提取 回归 方程 的 系数 ， 通 
过 Im$residuals 可 以 提取 回归 后 得 到 的 残 差 。 

mode 函数 可 以 用 来 查看 model 对 象 所 属 类 的 基本 构成 ， 运 行 mode (model)， 则 会 显 
示 lm 类 是 由 list 类 组 成 的 。 如 果 要 消除 对 象 的 类 ， 可 运行 unclass (model), model 对 象 则 
会 变 成 一 个 单纯 的 list 对 象 。 

前 面 提 到 了 类 由 属性 和 方法 组 成 。 所 谓 方法 实际 上 就 是 一 组 函数 ， 这 组 函数 专门 用 于 
这 个 类 。 例 如 对 于 mode 这 个 对 象 , 其 专门 的 绘图 函数 就 是 plotlm。 如 果 用 善 通 的 函数 plot 
也 一 样 能 显示 其 图 形 ， 其 原因 在 于 pot 这 种 函数 会 自动 识别 对 象 的 类 ， 从 而 选择 合适 的 函 
数 来 处 理 对 应 的 对 象 ， 这 种 函数 称 为 泛 型 函数 〈Generic function)， 这 里 不 做 进一步 讨论 。 


7.2 创建 及 发 布 自己 的 R/Bioconductor 包 


提交 自己 的 R 包 不 但 可 以 让 更 多 的 人 使 用 ， 而 且 在 提交 及 维护 的 过 程 中 ， 也 可 以 更 多 
地 锻炼 自己 的 R 编程 能 力 及 文档 写作 能 力 。 本 节 以 创建 和 发 布 一 个 R 包 “helloWorld” 为 例 ， 
首先 介绍 了 如 何在 Windows 系统 上 ,通过 RStudio 交 互 界面 创建 RR 包 , 以 及 如 何 发 布 到 CRAN 
和 Bioconductor; 然后 再 简要 介绍 在 Linux RA Eiee R E. 


7.2.1 在 Windows 下 创建 和 发 布 R 包 


(1) 所 需 软件 安装 及 配置 


ORT RER 主 程序 之 外 ， 还 需要 安装 以 下 工具 ; 

A.RStudio: 它 的 下 载 与 安装 请 参考 本 书 1.2.3， 本 章 示 例 版 本 RStudio-0.97.551。 

B.Rtools (http://cran.r-project.org/bin/windows/Rtools/): Windows 下 编译 R 包 的 必 备 软 
件 ， 本 章 示 例 版 本 Rtools 3.1; 

C.MikTeX (http://miktex.org/) 或 者 CteX (http://www.ctex.org/): 用 于 产生 1 PDF ш 
帮助 文件 ， 本 章 示 例 版 本 为 支持 中 文 的 CTeX_2.9.2.164。 

OME Windows 系统 环境 变量 :通过 RStudio 创建 R 包 时 ,RStudio 需要 获得 R 主 程序 、 
Rtools 和 CteX 工具 所 在 的 目录 。R 主 程序 所 在 目录 由 RStudio 自动 获取 ; CteX 所 在 目录 由 
安装 程序 写 入 Windows 环境 变量 ; Rtools 则 需要 在 安装 到 “Select Additional Tasks ”一步 时 ， 
选中 “Edit the system PATH” 来 指定 。 

所 有 软件 安装 完成 后 ， 再 次 检查 环境 变量 : 在 Windows XP 系统 中 ,右键 点 击 “ 我 的 电 
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№”, 选择 “属性 > 高 级 > 环境 变量 ?>》 系 统 变 量 >Path”， 点击“ 编辑 ”检查 “变量 值 ” (图 

7-2)。 假 设 RTools 安装 在 C:\Rtools，CteX 安装 在 САСТЕХ, ЖА Path 变量 值 中 应 该 有 : 
C:\Rtools\bin;c:\Rtools\gcc-4.6.3\bin; 
CACTEX\UserData\miktex\bin;C:\CTEX\MiKTeX\miktex\bin;C:\CTEX\CTeX\ctex\bin;C:\ 


CTEX\CTeX\cct\bin;C:\CTEX\CTeX\ty\bin;C:\CTEX\Ghostscript\gs9.05\bin;C:\CTEX\GSview\ 
gsview;C:\CTEX\WinEdt 


Settingst. 
Settings\. 


2 
Windows ЖТ 
ogan 了 
ЕКЕ: B. 


图 7-2 ”配置 Windows 系 统 环境 变量 


如 果 安 装 程序 没有 自动 配置 好 环境 变量 ， 就 需要 手工 添加 。 注 意 路 径 之 间 用 分 号 (“;”) 
分 隔 ， 不 需要 其 他 任何 间隔 符号 。 


(2) 准备 R 包 所 需 全 部 文件 


首先 ， 运 行 RStudio， 从 主 菜 单 选 择 “File>New-?>?R script”， 添 加 如 下 代码 : 
helloWorld <- function(){ 
cat("hello world'\n") 

} 

Жа, W “Filed Save”, 在 工作 目录 C:\workingdirectory, 将 上 述 内 容 保 存 到 文件 
helloworld.R。 再 选 “Project>Create Project ...”， 选 择 “New Project” 新 建 一 个 项 目 。 

在 新 建 项 目 对 话 框 里 (图 7-3)， 从 “Type” 下 拉 菜 单 选择 Package; 文本 框 “Package 
name” 处 填写 helloWorld; 在 “Create package based on source files” 右 边 点 “Add” 添 
加 刚刚 新 建 的 helloworld.R 文件 ， 在 “Create project as subdirectory of” 处 填写 此 R 包 将 
保存 的 目标 目录 “C:\workingdirectory” 最 后 点 击 “Create Project” 来 创建 项 目 。 随 后 ， 
RStudio 会 自动 调用 package.skeleton 函数 生成 本 项 目 所 需 全 部 文件 。 全 部 文件 生成 完毕 ， 
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可 以 从 RStudio 右 下 的 文件 浏览 器 中 看 到 “Ci:\workingdirectory\helloWrold” 目 录 中 已 经 
生成 的 所 有 文件 (图 7-4). 


- Create Project 


| Back | Create New Project 
Туре ийет _ 
| ihelloWorld i 
: 
， Create package based оп source files: 
| C:/workingdirectory/helloworld.R + | 
| 
| [ Е 
| |C:/workingdirectory | Browsen | 


7 


Workspace History Build w 上 
20 Build & Reload [7 Check (F Morev 


| slloWorldRd% 0) hellowortdRY  » 


Җ 


11 Source 
1» helloworld <- 
2 сат ("һе11о моғ1а! п") 
з } 
4 


Files Plots Packages Нер 
0) мем Folder © | Delete | 7 Rename Ё More~ 
C womingdiredory hellaWorld 
Name 


у Size Modified 


„АЙ Бен Н S нин 


J Read-and-delete-me 
J DESCRIPTION 
~ helloWorld,Rproj 275 bytes 
L] NAMESPACE 22 bytes 
Сй к 


466 bytes 


292 bytes 


Orct 11, 20 


, 2013, 10:52 PM 
„2013, 10:52 PM 


图 7-4 ”新 建 项 目 中 的 所 有 文件 
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修改 man 目录 内 文件 helloWorld.Rd: 删 除 其 中 的 details, \value, \геѓегепсеѕ, \author, \note, 
\seealso, \keyword 元 标签 及 其 内 容 ; 在 \title 及 \description 元 标签 内 写 入 相关 内 容 , 修改 后 内 
容 如 下 : 


\name{helloWorld} 

\alias{helloWorld} 

%- Also NEED ап \alias' for EACH other topic documented here. 
\title{ 

Hello world 

} 

\description{ 

echo "hello world" 

} 

\usage{ 

helloWorld() 

} 

\examples{ 

##---- Should be DIRECTLY executable!! ---- 

##-- ==> Define data, use random, 

##-- ог do help(data=index) for the standard data sets. 


## The function is currently defined as 
function () 


{ 
cat("hello world!\n") 


修改 тап 目录 内 文件 helloWorld-package.Rd: 删除 \alias{fhelloWorld} 元 标签 及 其 内 容 ， 
因为 它 与 helloWorld.Rd 中 的 同名 元 标签 冲突 ， 删 除 \references 及 \seealso 元 标签 及 其 内 容 ; 
对 其 他 元 标签 内 容 做 合理 修改 ， 修 改 后 内 容 如 下 : 

\name {helloWorld-package } 

\alias{helloWorld-package } 

\ЧосТуре{расКаре } 

\title{ 

hello world package 

} 

\description{ 

hello world package to help use to build their first R package 
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} 
\details{ 


\tabular{11}{ 

Package: \tab helloWorld\cr 
Type: \tab Package\cr 
Version: \tab 0.99\cr 

Date: \tab 2013-07-11\cr 
License: \tab What license is it under?\cr 
} 

say hello only 

} 

\author{ 

Who wrote it 


Maintainer: Who to complain to <yourfault@somewhere.net> 


} 

\keyword{ package } 

\examples{ 

helloWorld() 

} 

注意 ， 如 果 要 提交 到 Bioconductor， 提 交 之 前 ， 版 本 号 应 该 小 于 1.0。 这 里 ， 提 交 前 最 
终 确 定 的 版 本 号 应 该 为 0.99。 

进入 “C:Nworkingdirectory\helloWrold” 目 录 ， 新 建 目录 inst 及 其 子 目 录 doc, XA doc 
目录 ， 通 过 RStudio РЈ “Ее Мем ЭВ Sweave” 新 建 helloWorld.Rnw 文件 ， 也 就 是 常 说 
的 vignette， 其 内 容 如 下 : 

%\VignetteIndexEntry {helloWorld Vignette} 

%\VignetteDepends{helloWorld } 

%\VignetteKeywords{hello World} 

%\VignettePackage{helloWorld } 

\documentclass {article } 


\begin {document} 
\title{ My first package: hello world} 
\maketitle 
\section{Say hello to world} 
This is the my first package. Simple but not easy one. 
\begin{scriptsize } 
<<сойеТар1>>= 
library(helloWorld) 
helloWorld() 
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@ 
\end{scriptsize } 


\section { Session Info} 
\begin {scriptsize } 
<<>>= 

sessionInfo() 

@ 

\end {scriptsize} 
\end{document} 


最 后 ， 通 过 RStudio 中 的 “Build 耻 Check Package” 来 对 所 有 文件 进行 检查 。 如 果 没 有 
任何 报错 或 警告 ， 就 完成 了 所 有 文件 的 准备 工作 。 


(3) 添加 其 他 程序 文件 


一 个 R 包 通 常 由 多 个 程序 组 成 ， 并 分 布 在 不 同文 件 中 ， 下 面 示例 如 何 添加 另外 一 个 程 
序 ， 并 存放 到 R 目录 下 的 helloWorldNCall.R 文件 中 。 
helloWorldNCall <- function(n=1L){ 
х<-1+п 
for(i in 1:х){ 
helloWorld() 
} 


X 


} 


每 增加 一 个 程序 ， 就 需要 增加 相应 的 帮助 文件 。 当 然 多 个 程序 也 可 以 通过 使 用 апаз 元 
标签 共用 一 个 帮助 文件 ， 但 是 最 好 还 是 程序 和 帮助 文件 一 一 对 应 。 因 此 ， 这 里 需要 在 man 
目录 内 增加 帮助 文件 helloWorldNCall.Rd， 其 内 容 如 下 : 


\name{helloWorldNCall } 
\alias {helloWorldNCall } 
\title{ 

hello world n times 
} 
\description { 

call hello world repeatly 
} 
\usage{ 
helloWorldNCall(n=1L) 
} 


\arguments{ 
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\item{n}{A integer number giving the number of times to repeat helloWorld} 

} 

\value{ 

An object of integer number as n+1 
} 
\examples{ 
helloWorldNCall() 
} 


再 次 通过 RStudio 中 的 “Build 了 Check Package” 来 对 所 有 文件 进行 检查 。 
(4) 增加 自 检 程 序 


R 常规 的 检查 工具 只 能 对 程序 能 否 运 行 做 检查 ,无 法 检查 程序 的 边界 条 件 以 及 参数 能 否 
正确 被 处 理 , 所 以 我 们 还 需要 使 用 R/Bioconductor 的 RUnit 及 BiocGenerics 两 个 包 对 程序 的 
正确 性 做 核对 检查 ， 以 防止 在 维护 及 再 开发 的 过 程 中 出 现 错误 。 

首先 ， 分 别 安 装 好 RUnit 及 ВіосСепегісѕ 包 。 

Install.packages(“RUnit”) 

source("http://bioconductor.org/biocLite.R") 

biocLite("BiocGenerics") 


然后 ， 在 helloWorld 软件 包 根 目录 下 新 建 tests 目录 ,在 其 中 新 建文 件 runTests.R， 其 内 
容 如 下 : 

require("helloWorld") |! stop("unable to load Package:helloWorld") 

BiocGenerics:::testPackage("helloWorld") 


在 DESCRIPTION 文件 中 加 入 一 行 Suggests 描述 : 
Suggests: RUnit, BiocGenerics 


在 inst 目录 下 新 建 子 目录 unitTests， 并 在 其 中 新 建文 件 test_helloworld.R。 注 意 ， 在 此 
目录 中 的 文件 命名 必须 符合 正则 表达 式 '^test_.*\\.R$'， 在 文件 中 写 入 的 所 有 函数 命名 必须 符 
合 正则 表达 式 ' ^test. + ， 否 则 无 法 被 执行 。 
test_helloWorld_run <- function(){ 
helloWorld() 

} 

test_helloWorldNCall_return <- function(){ 
x <- helloWorldNCall(2) 
checkEquals(3, x) 

} 


最 后 ， 通 过 RStudio 中 的 “Build>Check Package” 来 对 所 有 文件 进行 检查 ， 没 有 任何 
报错 或 警告 。 如 果 将 test_helloworld.R 中 的 checkEquals(3, х) 一 行 改 为 checkEquals(2, х), F 
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次 进行 错误 检查 ， 就 会 发 现 系统 报错 。 因 为 ， 这 里 期 待 helloWorldNCall(2) 返 回 的 结果 为 2， 
当 helloWorldNCall(2) 不 返回 的 结果 不 是 2 时 系统 就 会 报错 。 
* checking tests ... 
Running ‘runTests.R’ ERROR 
Running the tests in ‘tests/runTests.R’ failed. 
Last 13 lines of output: 
1 Test Suite : 
helloWorld RUnit Tests - 2 test 
functions, 0 errors, 1 failure 
FAILURE in test_helloWorldNCall_return: 
Error in checkEquals(2, x) : Mean relative difference: 0.5 
Test files with failing tests 
test_helloworld.R 
test_helloWorldNCall_return 
Error in BiocGenerics:::testPackage("helloWorld") : unit tests failed for package 
helloWorld 
Execution halted 
Exited with status 1. 


(5) 增加 数据 


在 R/Bioconductor 包 的 开发 过 程 中 , 常常 需要 附加 一 些 数 据 , 或 是 软件 包 用 于 程序 示例 ， 
或 是 软件 包 中 程序 本 身 需 要 ， 或 是 提供 给 其 他 程序 使 用 〈 纯 数据 包 )。 在 RStudio 界面 左下 
方 命令 行 中 运行 下 面 代码 ， 可 以 增加 一 个 数据 : 

X<-3 

аіг.сгеаќе("ааѓа") 

ѕауе(х, Ёе="ааѓа/ааіх гаа") 


这 几 行 代码 在 helloWorld 目录 下 新 建 了 data 目录 , 并 在 其 中 以 datx.rda 为 文件 名 保存 了 
变量 x 中 的 数据 。 

每 增加 一 个 数据 ， 也 需要 增加 相应 的 帮助 文件 ， 因 此 在 тап 目录 下 新 建 datx.Rd 文件 ， 
其 内 容 如 下 : 

\пате{х } 

\аһаѕ{х} 

\аосТуре{ data} 

\title{ 

sample data x 

} 

\description{ 

Sample data X 

} 

\usage{data(datx)} 
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\format{ 
A integer numeric 
\describe{ 

\item{\code{x} } {a integer numeric vector} 

} 

} 

\examples{ 

data(datx) 

х 

} 

\keyword {datasets } 


再 次 通过 RStudio 中 的 “Build 耻 Check Package” 来 对 所 有 文件 进行 检查 。 
(6) 创建 R 包 


在 完成 了 以 上 所 有 工作 之 后 ， 就 可 以 正式 创建 一 个 具有 к 程序 、 数 据 及 自 检 功能 的 
helloWorld 包 。 通 过 主 菜 单 “Build>Build Source Package”， 就 在 工作 目录 下 创建 了 源 代码 
包 helloWorld_1.0.tar.gz, 这 个 包 不 包含 任何 二 进 制 可 执行 文件 。 而 通过 “Bulid>Build Binary 
Package” 则 可 以 创建 二 进 制 包 ， 二 进 制 包 是 平台 相关 的 ，Window 系统 三 进 制 包 的 文件 扩 
展 名 是 “.zip” Мас OSX 系统 二 进 制 包 的 文件 扩展 名 是 “.tgz”。 


(7) 发 布 R/Bioconductor Ё 


在 提交 之 前 ， 请 做 好 如 下 准备 工作 : 

QD 删除 不 必要 的 文件 ， 其 中 包 插 后缀 名 为 “.DS_Store”、“.project”、“.svn” 和 “.Rproj” 
的 文件 ; 

@ 如 果 发 布 的 是 Bioconductor 包 , 需 要 将 DESCRIPTION 文件 中 的 版 本 号 设置 为 0.99.0。 
在 之 后 的 修改 过 程 中 ， 它 会 变 为 0.99.1、0.99.2…… 正 式 发 布 时 会 自动 变 为 1.0.0; 

@ 尽 量 使 用 原 有 的 R/Bioconductor 程序 ， 而 不 是 重 写 ， 这 样 可 以 减少 R 包 内 容 ， 提 高 
质量 ， 同 时 也 体现 对 他 人 劳动 的 尊重 ; 

由 确认 通过 所 有 的 检查 ， 没 有 出 现任 何 警告 或 错误 ; 

@@ 出 于 安全 原因 ， 不 要 提交 预 编 译 的 二 进 制 包 ， 所 有 к 包 都 要 提交 源 代 码 包 ， 二 进 制 
包 由 管理 人 员 负 责编 译 和 发 布 。 

普通 R 包 提 交 需 要 以 下 两 个 步骤 : 首先 ,在线 填写 提交 表单 ， 网 址 为 
http://cran.r-project.org/submit.html; 然后 上 传 包 到 ftp://CRAN.R-project.org/incoming， 同 时 
给 CRAN@R-project.org 发 邮件 。 注 意 不 要 把 提交 的 包 作 为 邮件 附件 发 送 。 

Bioconductor 包 的 提交 ， 则 需要 首先 在 http://tracker.fhcrc.org/roundup/bioc_submitindex 
网 站 上 注册 一 个 用 户 ， 激 活 后 登录 ， 选 择 “Issues 耻 Create New”, 在 表单 中 正确 填写 相关 项 
目 ， 等 待 系统 自 检 完 成 之 后 ， 它 会 自动 生成 一 份 报告 ， 告 诉 你 提交 的 R 包 是 否 通 过 了 不 同 
平台 的 检查 。 如 果 通 过 了 检查 ， 很 快 它 就 会 被 指定 给 Bioconductor 核心 团队 中 的 一 位 成 员 
审查 ,审查 过 程 中 可 能 需要 反复 修改 你 的 R 包 。 审查 通过 之 后 ，Bioconductor 会 发 送 一 封 茶 
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喜 邮 件 ， 表 示 全 部 提交 完 
7.2.2 在 Linux 下 创建 和 发 布 包 


在 Linux 系统 上 创建 R 包 ， 通 常 不 需要 配置 环境 变量 ， 操 作 要 相对 简单 一 些 。 假 设 当 
前 的 工作 目录 是 “~/workspace”， 可 以 通过 下 列 步骤 来 创建 源 代码 包 helloWorld_1.0.tar.gz。 
(1) 建立 一 个 R 源 代码 文件 helloWorld.R， 内 容 为 : 
helloworld<-function(){ 
cat("hello world!\n") 
} 


(2) 进入 R 主 程序 ， 运 行 : 

rmdlist=lsO0) # 清除 所 有 不 需要 的 数据 或 函数 
setwd(“~/workspace”) # 切换 工作 目录 
source(“~/workspace/helloWorld.R”) # 读 取 R 源 文件 


(3) 调用 package.skeleton0 函 数 ， 创 建 R 包 框 架 : 
package.skeleton(name = “helloWorld”’, list = (“helloWorld”)) 


(4) 删除 文件 Read-and-delete-me， 修 改 文件 helloWorld.Rd 和 helloWorld-package.Rd， 
新 建文 件 helloWorld.Rnw 等 操作 。 

(5) 检查 并 创建 RR 包 。 

$ cd ~/workspace 

$ R CMD check helloWorld 

$ R CMD build helloWorld 

(6) 安装 制作 好 的 R 包 到 指定 目录 /home/rlibs。 

$ R CMD INSTALL -l /home/rlibs helloWorld_1.0.tar.gz 


7.3 R 包 结 构 


本 章 7.2 节 创 建 R 包 部 分 提 到 了 R 包 分 为 源 代码 包 和 二 进 制 包 .通常 ,R 和 Bioconductor 
官方 网 站 只 发 布 三 种 ЕВ 包 : 适用 于 Windows 系统 的 二 进 制 包 (“.zip” 文 件 )、 适 用 于 Мас OSX 
系统 的 二 进 制 包 (“.tgz” 文 件 ) 和 适用 于 所 有 系统 的 源 代 码 包 (“ .tar.gz” 文 件 )。 由 于 Linux 
系统 具有 多 种 的 发 行 版 ， 无 法 发 布 一 个 统一 的 二 进 制 包 ， 因 此 Bioconductor 只 发 布 Linux 
系统 的 源 代码 包 ， 由 用 户 下 载 源 代码 包 到 本 地 ， 然 后 编译 安装 。 

在 不 同 操作 系统 上 创建 的 源 代 码 包 是 完全 一 样 的 ， 针 对 不 同 操作 系统 的 二 进 制 包 一 些 
文件 会 有 差异 ， 但 基本 目录 类 似 。 然 而 ， 源 代码 包 《〈 图 7-5A) 与 二 进 制 包 (图 7-5B) 之 间 
的 差别 还 是 很 大 的 。 另 外 ， 通 过 比较 就 会 发 现 ， 系 统 中 安装 好 的 R 包 ， 与 二 进 制 包 解压 缩 
后 内 容 完 全 一 致 。 
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А. В. 
helloworld helloworld 
+-- data +-- data 
} +-- datx.rda +-- datx.rda 
+-- DESCRIPTION +-- DESCRIPTION 
+-- SSE +-- бос 

+-- doc Е +-- helloworld.R 

- +- - helloworld.pdf . +- - _ hellowcr1d. Вг 

+- - пе11омог1а. в 4 +-- index.html 
+- - helloworld. пе +-- help 

+- - unitTests H +- - aliases.rds 
- +- - test_helloworld.R $ +- - Апїпйех 
+-- man - +-- hellomworld.rdb 
У +- - дах. i +-- helloworld. гіх 

+- - helloworldNcCall.Rd А +-- Paths .rds 

+- - helloworld-package.Rd +-- html 

+- - helloworld.Rd $ +-- @ёёїпдех.һїт1 
+-- NAMESPACE 8 +-- R.css 
+-- R +-- INDEX 
~ +- - helloworldscall.R +-- MDS 

+- - helloworld.R +-- Meta 
+-- test E +- - data.rds 

+-- runrests .R +- - hsearch .rds 

Ч +-- links.rds 
+-- nsInfo.rds 


+- - package.rds 
+- - Rd.rds 
+- - vignette.rds 
+-- NAMESPACE 
+-- R 
ч +-- helloworld 
+-- helloworld.rdb 
- +-- heiioworld.rdx 
+-- UnitTests 
+-- test_helloworld.R 


图 7-5 源 代码 包 和 二 进 制 包 的 比较 
7.3.1 R 的 源 代 码 包 


一 个 R 源 代码 包 一 般 包 括 以 下 目录 和 文件 (图 7-5A). 

(1) DESCRIPTION 是 一 个 纯 文本 文件 ,提供 R 包 的 基本 信息 ,包括 包 名 、 版 本 号 、 标 
题 、 描 述 和 依赖 关系 等 。 

(2) R 子 目录 存放 所 有 R 函数 的 源 代码 文件 ， 文 件 扩展 名 是 “.R”， 可 以 被 source 函数 
载 入 ， 这 些 R 函数 还 可 导出 作为 包 函 数 库 提供 给 外 部 使 用 。R 和 тап 子 目录 还 可 能 包含 操 
作 系 统 专 有 的 子 目 录 unix 和 Windows. 

(3) тап 子 目 录 存 放 所 有 R 帮助 〈 即 调用 help 函数 显示 的 内 容 ) 的 源 代码 文件 ， 文 件 
扩展 名 是 “.Rd”。 除 了 Rd 格式 的 帮助 文件 ，R 包 中 还 允许 包含 其 他 任意 格式 的 帮助 文件 ， 
尤其 是 PDF 文件 。 源 代码 包 中 的 其 他 帮助 文件 位 于 Insydoc/ 子 目录 。 当 包 安装 后 ， 这 个 目 
录 下 的 内 容 将 被 复制 到 包 安 装 路 径 中 的 doc 目录 中 。 

(4) inst 子 目录 下 的 所 有 文件 和 子 目录 将 会 递归 复制 到 所 在 包 的 安装 目录 下 ， 因 此 inst 
下 的 子 目 录 不 应 该 与 二 进 制 包子 目录 (R, data, demo, exec, libs, man, help, html 和 теѓа) 
名 称 相 冲 突 。 

(5) 对 于 有 命名 空间 的 包 ，NAMESPACE 文件 枚 举 包 中 需要 被 导出 的 对 象 。 

(6) Data 子 目录 用 于 存放 数据 ， 可 以 由 3 种 形式 的 文件 保存 : R 代码 文件 (后缀 名 是 .R 
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或 r)、 表 格 文件 后缀 名 是 .tab、.txt 或 csv) 以 及 RR 映像 文件 (后缀 名 是 .RData 或 .rda)。 
对 于 较 大 的 数据 集 , 应 使 用 save 函数 产生 R 映像 来 保存 数据 , 可 以 大 大 节省 用 户 下 载 时 间 。 
更 重要 的 是 ，R 映像 是 直接 保存 到 包 中 的 二 进 制 数据 格式 〈 正 宗 的 R 数据 )， 当 所 在 的 包 被 
library 函数 加 载 时 ， 这 些 数据 被 同时 加 载 ， 可 以 使 用 data 函数 直接 调 取 数据 〈 见 第 5 章 例 
5-1). 

(7) дето 子 目录 提供 演示 用 的 的 К 脚本 ， 脚 本 文件 必须 以 字符 开头 ， 以 R” R г” 
作为 扩展 名 ， 并 通过 demo 函数 运行 。 

(8) src 子 目录 保存 其 他 编程 语言 (如 C、C++ 和 Fortran 等 ) 编写 的 源 代码 和 头 文件 ， 
还 可 能 包括 用 于 编译 的 Makevars 或 Makefile 文件 。 

(9) tests 子 目录 包括 专用 的 测试 代码 ， 本 章 7.2.1 中 已 介绍 。 

(10) exec 子 目录 存放 可 能 需要 的 可 执行 脚本 ， 尤 其 是 shell、Perl 或 Tel 脚本 ， 当 前 这 
一 机 制 极 少 使 用 。 


7.3.2 RR 的 二 进 制 包 


通过 图 7-5B， 可 以 发 现 R 的 二 进 制 包 和 源 代码 包 之 间 有 以 下 主要 区 别 。 

(1) 二 进 制 包 的 R 子 目录 中 没有 “.R” 文 件 ， 而 是 将 解析 过 的 函数 分 别 保存 在 3 个 文 
件 中 ， 其 中 的 “rdb” 文 件 保 存 序列 化 的 对 象 ， 而 “rdx” 文 件 保 存 索 引 。 这 等 效 于 先 加 载 
所 有 的 R 源 代 码 ， 再 用 save 函数 保存 。 

(2) 二 进 制 包 增加 了 Meta 子 目录 存放 “.rds” 文 件 ， 可 以 通过 readRDS 函数 查看 这 些 
文件 的 内 容 。“.rds” 文 件 用 来 保存 一 个 连接 到 文件 的 单一 R 对 象 ， 并 可 以 用 一 个 不 同 的 名 
称 来 恢复 该 对 象 。“ .rds” 文件 常 被 R 主 程序 使 用 ， 例 如 存储 包 的 元 数据 或 存储 “help.search” 
数据 库 。 

(з) 二 进 制 包 增 加 了 html 子 目 录 存 放 所 有 html 格式 的 帮助 文件 。 

(4) 如 果 源 代码 包 有 src 子 目录 ， 二 进 制 包 将 增加 libs 子 目 录 ， 其 中 包含 src 中 所 有 源 
代码 的 32 位 (i386/) 和 64 位 (x64) 编译 结果 。 
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УЕ __ 2 ` 
附录 A 进一步 学 习 的 资源 
R 语言 和 Bioconductor 的 学 习 资源 浩如烟海 , 除了 前 面 介 绍 过 的 R 语言 和 Bioconductor 

项 目的 官方 网 站 ， 读 者 〈 特 别 是 生物 信息 学 领域 ) 还 要 充分 利用 其 他 方面 的 资源 。 考 虑 到 
大 部 分 中 文 初 学 者 的 需求 ， 重 点 推荐 “数据 科学 与 R 语言 ^“ 粮 世界 ”和 “生物 信息 学 天 
室 ” 三 个 中 文 网 站 ， 以 及 一 个 QQ 讨论 群 ， 生物 信息 学 天 空 系列 群 。 

一 、 相 关 网 站 

1. 数据 科学 与 R 语言 (http://xccds1977.blogspot.com/) 

“数据 科学 与 R 语言 ”是 本 文 作者 之 一 R 语言 培训 师 肖 凯 的 个 人 博客 ， 里 面 有 大 量 R 
语言 在 多 个 领域 中 数据 分 析 应 用 的 实例 和 代码 详解 , 是 国内 最 好 和 最 全 的 R 语言 资源 网 站 。 


数据 科学 与 R R£ Е 


Data Science апа R 
主页 НАЖШЕНУ 。 如 何 学 习 数 据 科学 。 我 最 喜欢 的 12 本 R 语 言 书 хта 。 商业 合作 
, Айт, үст @б. 20 ЕН ас 
什么 是 数据 科学 (Data Science) | 搜索 | 
数据 科学 ?在 wikipedia 丰 你 还 找 不 到 Data Science 的 词 条 ， 但 它 将 成 就 你 的 未 来 
Bigbata DOOK ьз мн ggot 
谷歌 首席 经 济 学 家 Hal Varian 在 2009 年 说 ， 下 一 个 十 年 最 有 吸引 力 的 工作 就 是 统计 学 家 。 能 К t2 ы 
енне 从 中 得 到 有 月 信息 并 能 图 形 化 ， 并 使 人 们 得 以 理解 ， 这 将 是 非常 重要 的 技 ООр!ОС^ google кит w 
。 在 此 处 他 所 称 的 "统计 学 家 "， 实 际 上 是 能 多 所 取 大 数据 集 的 信息 ， 然 后 展现 给 非 数据 专家 кузу чле уын баев 
енй 些 人 ,我 们 也 可 称 之 为 数据 极 客 (Data Geek) 或 是 数据 科学 家 (Data Scientists). нани гаек б кеу 
azs 入 | 教程 公开 数据 


-、 数 据 科学 的 构成 
语言 ， 特 别 是 


2. $R (http:/pgfe.umassmed.edu/ou) 
欧 剑 虹 博 士 的 个 人 博客 ， 里 面 有 大 量 R 


“ 粮 世 界 ” 是 本 文 作者 之 一 
Bioconductor 分 析 生 物 数据 的 资料 , 内 容 详 尽 ,， 才 盖 面 广 , 图 文 并 茂 , 是 鲜 有 的 Bioconductor 


中 文学 习 资 源 。 


Ш 212 有 R 语 言 与 Bioconductor 生物 信息 学 应 用 


ЛЯ TE Fr 


ы — ад жх ж ж 次 № 
ХО ЖЖЖИ ЯЕ 


About ”Crcos 教 程  R/Bioconductor ”序列 比 对 与 N65 
^^ i м, 
© 搜索 

1 3 3 4 > 6 27 56 下 一 而 % 


使 用 RStudio 结 合 devtools 开 发 bioconductor pp 
i 展 包 © H й 
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з. 生物 信息 学 天 空 (http:/www.bioinfosky.com/) 
“生物 信息 学 天 空 ” 是 关注 于 生物 信息 学 知识 的 科学 普及 类 网 站 , 提供 了 各 类 学 习 资 源 、 
前 沿 进展 、 软 件 应 用 等 内 容 学 术 论 坛 有 专门 的 栏目 讨论 R 语 言 在 生物 信息 学 中 的 应 用 。 


学 术 论坛 。 “技术 求助 成员 门 户 。 加 入 QQ 了 群 AARE кш ”手机 访问 序列 工具 


ЛЕ 搜索 МЕ: 生物 信息 学 课件 下 载 定位 MATRE 基因 预测 研究 热点 ”生物 信息 2011 研 究 执 点 
д #7. #2, 
Г ШЕ 前沿 进展 | 热门 教程 


ж 


· PLOS Computational Biolo.: 录 期 预测 人 流 


PNAS: ОХАН 
Trend. Bio.Sci: WREE MH 
蛋白 合成 过 程 新 发 现 : "да 
CHI SCI BULL: 硒 蛋 白 生 物 信息 学 研究 在 海 生 
Cancer Res.: 一 种 信息 学 得 法 快速 夭 选 


Maste О Р 
Perl tor 


®= ЕХ ЕШ {А ЖЕЛШ GA ( 
北京 市 计算 中 心 -《 论 文 图 表 处 理 实用 技能 》 
20 记 2 生物 将 学 工程 ， 生 物 信息 学 国际 人 骆 议 (BEB 


4. 统计 之 都 (http://cos.name/) 


“统计 之 都 ”致力 于 传播 统计 知识 ， 特 别 是 基本 理论 和 实际 应 用 的 结合 ， 其 推荐 的 编程 
语言 就 是 R 语言 ， 有 大 量 相关 的 文章 等 资源 ， 特 别 适 合 中 文 初学 者 。 


Home 
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CAPITAL ОЕ STATISTICS 


7 PROFESSION, HUMANITY & INTEGRITY 


名 师 访谈 : 约翰 - 霍 普 金 斯 大 学 Jeff Leek 


Posted оп 2013/06/17 by ЖЖ 


Jeff Leek 709 0 КЕЕ HEF Johns Hopkins Bloomberg 
School of Public Health ) ҢЛ1#%й}@„ e5 ҺИ HENE Simply Statistics 是 最 


受 欢 迎 的 统计 学 博客 之 一 。 


1. 教育 背景 


我 叫 Jeff Leek, 


本 文 是 小 编 对 Jeff Leek 采 访 的 录音 稿 。 


我 是 美国 约翰 ` 翟 普 金 斯 大 学 的 一 名 助理 教授 ,方向 是 生物 统计 。 我 在 犹 


他 州立 大 学 念 的 本 科 ， 方 向 是 应 用 数学 。 然 后 是 在 西雅图 华盛顿 大 学 读 的 生物 统计 博士 
学 位 。 之 后 我 又 在 Mount Sinai School of Medicine 做 了 博士 后 ， 然 后 又 去 约翰 - 霍 普 金 斯 
大 学 做 了 博士 语 ， 方 向 是 计算 生物 学 。 我 的 研究 方向 主要 是 基因 组 相关 问题 和 下 一 代 序 


列 分 析 。 我 正在 维护 一 个 叫 Simply Statistics 的 博客 ， 里 面 有 很 多 有 趣 的 统计 问题 。 


5. К-Ыоррегѕ (http://www.r-bloggers.com/) 
“R-bloggers” 是 一 个 R 语言 博客 整合 网 站 ， 它 收集 了 全 球 数 百 个 和 R 有 关 的 博客 源 ， 


About | 


add your blog! 


R news and tutorials contributed by (452) R blogger: 


Contact us 


R-bloggers 


з 


ў 3@ 统 计 之 都 
АО Е 
огФсоѕ пате 


#185 CapStat 


我 们 将 第 一 时 间 阿 您 推送 主 站 和 论 
MRKAR, URII ZEBA 
下 活动 、 竞 赛 、 培 训 和 会 议 信息 . 


各 种 关于 R 语言 使 用 的 技巧 文章 相当 丰富 ， 但 要 求 读者 有 良好 的 英文 基础 。 


WELCOME! 


Here you wili find daily 
news and tutorials 
about R, contributed by 
over 450 bloggers. You 
can subscribe for e-mail 
updates 


Your e-mail here 
Subscribe 


8500 readers 


And get updates to your 
Facebook 


ќт) ғ 
bloggers 


Гар. 


7,990 ЛЖ R bloggers 。 


i 


RSS | 


Prototyping A General 
Regression Neural Network 


with SAS 


Ву statpompute 


Айч a Comment 


Last time when | read the paper "А 
General Regression Neural 
Network” by Donald Specht, it was 


exactly 10 years ago when | was in (ће graduate school. After reading 
again this week, 1 decided to code it out with SAS macros and make 
this excellent idea available for the SAS community. The prototype of 


Optimization 


By Vincent Zoonekynd's Blog 


其 他 重要 资源 还 包括 : 
。 集 合 了 R 语言 中 最 常用 函数 的 参考 卡片 
http://cran.r-project.org/doc/contrib/Short-refcard.pdf 
。 官 方 网 站 上 的 R 语言 导论 资料 


Announcing pqR: 


A faster version of 


R 


Search & Hit Enter 


TOP 7 ARTICLES OF THE WEEK 


Dynamic Data Visualizations in the 
Browser Using Shiny 

Top 100 R packages for 2013 (Јап- 
May)! 

Computerworid's Beginners Guide to R 
Draw nicer Classification and 


MATLAB. Python, апа R 
Select operations on R data frames 
А list of R packages, by popularity 


|Search & Hit Enter 


SPONSORS 
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http://cran.r-project.org/doc/manuals/R-intro.pdf 

。Quick-R 是 R in Action 一 书 的 作者 网 站 ， 提 供 了 大 量 在 线 教程 
http://www.statmethods.net/ 

。 一 本 关于 R 语言 编程 的 wikibook 
http://en.wikibooks.org/wiki/R_Programming 

。 官方 主编 的 R 语言 期 刊 ， 提 供 了 很 多 扩展 包 的 使 用 说 明 
http://journal.r-project.org/current.html 

。 美国 计算 机 世界 杂志 网 站 提供 的 RR 语言 初学 者 入 门 资料 
http://www.computerworld.com/s/article/9239625/Beginner_s_guide_to_R_Introduction 
• Cookbook 提供 了 关于 R 使 用 中 的 常见 问题 的 解决 方法 
http://www.cookbook-r.com/ 

* EHET R 语言 绘图 方面 的 函数 介绍 和 选择 方法 
http://www.yaksis.com/posts/r-chart-chooser.html 

• Ggplot2 绘图 包 的 官方 文档 

http://docs.ggplot2.org/current/ 

。 提 供 了 一 些 R 语 言 教 学 幻灯 片 

http://courses.had.co.nz/ 

。 精 悍 简洁 的 RR 语言 视频 教程 ， 已 经 有 近 百 个 免费 视频 
http://www.twotorials.com/ 

。 著 名 的 网 络 公开 课 Coursera 提供 的 R 语言 课程 
https://www.coursera.org/course/compdata 

e Lynda 提供 的 R 语言 教学 视频 课程 ， 有 部 分 免费 课程 
http://www.lynda.com/R-tutorials/Up-Running-R/120612-2.html 

。 以 实际 操作 来 练习 R 的 学 习 平台 

http://tryr.codeschool.com/ 

。 一 个 偏重 于 IT 技术 的 问答 网 站 ， 其 中 有 大 量 关 于 R 的 问题 和 答案 
http://stackoverflow.com/questions/tagged/r 

。 一 个 偏重 于 数据 分 析 和 数据 挖掘 的 问答 网 站 ， 其 有 也 有 许多 R 的 技巧 
http://stats.stackexchange.com/ 

。 一 个 专门 的 R 语言 资料 搜索 引擎 

http://www.rseek.org/ 


=. В 学 习 的 书籍 


(1) R 语言 进 阶 
《R in Action》 
《The Art of R Programming》 
进 阶 可 首选 两 本 ， 前 者 从 统计 角度 入 手 ， 分 高 、 中 、 低 三 部 分 由 浅 入 深 地 讲解 了 如 何 
用 R 来 实现 统计 分 析 。 后 者 从 程序 编写 的 角度 入 手 ， 对 R 的 本 身 特 点 进行 了 清晰 地 介绍 。 
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(2) 高 级 统计 

《A Handbook of Statistical Analyses_Using_R》 

Modern Applied Statistics With S} 

AEBEK Б ГИН ИТ 2, 2070707. 2А. х2} 
析 、 生 存 分 析 等 内 容 。 案 例 丰 富 ， 公 式 不 多 ， 值 得 反复 学 习 参 考 。 目 前 只 有 英文 版 。 


(3) 科学 计算 


《Introduction to Scientific Programming and Simulation Using В) 
除了 统计 分 析 外 ， 此 书 独 特 之 处 在 于 使 用 R 来 做 数值 分 析 ， 如 求 根 、 最 优化 、 数 值 积 
分 。 还 包括 了 一 些 常 见 的 模拟 技术 。 书 后 的 习题 和 最 后 的 案例 非常 有 用 。 


(4) 数据 挖掘 


《Data Mining with R_ Learning with Case Studies} 

Machine Learning for Hackers} 

两 本 侧重 于 数据 挖掘 的 R 书 ， 全 是 以 案例 为 线索 ， 示 范 的 代码 量 很 大 。 跟 一 遍 下 来 会 
有 很 大 的 收获 。 


(5) 数据 绘图 


《ggplot2 Elegant Graphics for Data Analysis》 
ggplot2 包 是 R 中 最 优秀 的 绘图 包 ， 相 对 于 英文 版 ， 中 文 版 进行 了 大 幅 更 新 ， 推 荐 对 绘 
图 可 视 化 有 兴趣 的 用 户 学 习 。 


(6) 参考 手册 


(К Cookbook》 

(В іп a Nutshell》 

有 时 候 我 们 需要 类 似 词典 的 案头 参考 手册 ， 以 方便 随时 查阅 。 又 或 者 可 以 通读 一 遍 以 
查 漏 补缺 。 上 面 两 本 书 虽 然 有 些 厚 度 ， 但 仍然 推荐 。 


(7) 高 级 编程 


《R Programming for Bioinformatics》 

{Software for data analysis programming with В) 

如 果 你 是 初学 者 ， 不 要 去 看 上 面 两 本 书 。 如 果 你 想 进 阶 为 专家 级 R 用 户 ， 那 你 需要 精 
读 它们 。 前 者 讲解 了 R 少 为 人 知 的 一 面 ， 例 如 字符 处 理 、 正 则 表达 和 XML， 还 有 报错 处 理 
以 及 与 其 他 语言 的 交互 。 后 者 更 是 编写 生产 级 代码 的 圣经 指南 。 


附录 B R 常用 函数 


менту aiie FARENE- 


逻辑 与 хог(х, у) 异 或 
逻辑 与 (只 返回 第 一 
个 值 ) 


逻辑 或 
显示 调用 各 包 的 共 
同 函数 
数据 列表 子 集 操作 
符号 


三 角 函 数 
双 曲 函数 
正 交 多 项 式 
多 项 式 求 根 


rowsum 


colsum 


rowmeans т 

colmeans 

Solve J2 
y 


diag 
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tolower 转换 成 小 写字 符 

substr жуван | 
基于 正则 表达 式 的 替换 

paste | 字符 向 量 连 接 | 

аа | 创建 连续 的 束 数 向 量 | 

Si 

f: 


Q 
l: n 
rep 创建 重复 向 量 
Т 
data. 


® #4 + 


[aray н 

as.logical 转化 为 逻辑 型 
转化 为 复 值 型 
as.character 转化 为 字符 型 
as.arra 转化 为 数组 
as.data.frame 转化 为 数据 框 


x[n] Ж п 个 元 素 /列表 显 |x$name 

ха] 7 ИТП 下 标 为 的 元 素 

х[-(1:п)] 第 ntl 至 最 后 的 元 

素 

х[с(1,4,2)] 指定 元 素 х[,е(1,3)] 第 1 和 3 列 

名 为 "name" 的 元 素 |x[["name"]] List 中 名 为 "name" 
的 元 素 

x[x>3] 所 有 大 于 3 的 元 素 |x@name 对 象 x 中 名 称 为 
name 的 属性 


[х[х>3 &х<5] | 区 间 (3，5) 的 元 素 |x[x%in%c("a","and","the")] 给 定 组 中 的 元 素 


жже везу 


Р: 


Ж 
ж 
的 
选 = 
取 |x[[n]] 列表 的 第 n 个 元 素 
与 返回 一 个 向 量 中 指定 元 素 的 索引 
简 返回 一 个 向 量 中 最 大 元 素 的 索引 
А |which.min 返回 一 个 向 量 中 最 小 元 素 的 索引 
Ж [sample 随机 在 向 量 中 抽取 元 素 
作 [subset 根据 条 件 选 取 元 素 
sort 升序 排列 元 素 
翻转 所 有 元 素 
获取 排序 后 的 索引 


返回 频数 表 
将 数据 分 割 为 几 部 分 
按照 给 定 条 件 分 割 数据 
按 行 合并 数据 
cbind 按 列 合并 数据 
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data 加 载 指定 的 数据 集 

= Фанни 
读 取 表 格 

读 取 以 去 号 分 隔 的 表格 

read.delim 读 取 以 tab 分 隅 的 表格 

以 fixed width formatted 形式 读 取 数 据 至 表格 
ѕауе 二 进 制 保存 指定 对 象 

save.image 二 进 制 保存 当前 线程 (session) 内 所 有 对 象 

将 数据 以 表格 形式 写 入 文本 

将 数据 以 CSV 表格 形式 写 入 文本 
强制 转化 为 字符 后 输出 
输出 转向 到 指定 文件 


Write.table 


dm | 获取 数据 的 维度 | 
获取 和 矩阵 或 者 数据 框 的 列 数 
获取 数据 的 行 名 称 


获取 数据 的 列 名 称 
获取 数据 类 型 


获取 数据 的 前 n 行 | 
获取 数据 的 尾 n 行 


得 到 或 设置 x 的 属性 类 型 


is.null, 
is.array, 

is.data.frame, ыныр кы е 
检测 变量 的 类 型 
is.numeric, 
is.complex, 


is.character, 
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х 
м 
а 
Ы 
пар Ин 
Г 


或 者 help, HKR ARO 帮助 文件 
或 者 help.search， 在 所 有 函数 帮助 文件 中 搜索 关键 字 
搜索 帮助 系统 

HTML 形式 的 帮助 
在 当前 路 径 下 进行 搜索 
查看 函数 的 使 用 示例 
获取 所 需 的 vignette 文档 
获取 当前 所 有 的 环境 变量 
返回 最 大 元 素 
返回 最 小 元 素 


й 


help.start 


apropos 


向 量 间 相同 下 标 元 素 进行 比较 最 大 者 ， 并 组 成 新 的 向 量 
向 量 间 相同 下 标 元 素 进行 比较 最 小 者 ， 并 组 成 新 的 向 量 
向 量 中 重复 第 一 个 元 素 加 到 第 i 个 元 素 ， 并 重新 组 成 新 的 向 量 。 
х[1]_зит{х[1]:х[1]) 

同上 ， 连 乘 

同上 ， 最 大 


加 权 平 均 数 


weighted.mean 
median 


中 位 数 
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ы мш 
с 


orm X 
дий 
卡 方 检验 ， 进 行 独立 性 检验 
对 总 体 均值 进行 假设 检验 
shapirotest Еа 
了 检验， 对 总 体 均值 进行 区 间 估计 

H | uo 


柯 西 分 布 


+ + 8 


Shapiro.test 

方差 分 析 

一 个 或 多 个 模型 对 象 的 方差 分 析 
ИШЕТ 
barplot 


dotchart 点 表 图 


hist 


lines 添加 线 
text 在 指定 坐标 添加 文字 


添加 标题 


їй } ЕЕ 或 


附录 C 的 内 存 管理 和 帮助 系统 


— 的 内 存 管理 


在 大 数据 时 代 ，R 语言 还 面临 两 大 挑战 : 一 个 是 内 存 限制 ， 另 一 个 是 单线 程 计算 。 其 中 
多 线程 问题 正在 逐步 解决 : 在 R 语言 的 2.14 版 本 发 布 之 后 ， 有 很 多 扩展 包 可 用 来 支持 R 在 
大 内 存 以 及 多 线程 方面 的 应 用 。 但 是 对 于 R 的 内 存 管理 ， 尽 管 推 出 了 一 些 解决 方案 〈 如 
bigmemory 包 )， 仍 然 还 是 困扰 编程 人 员 的 一 个 大 问题 ， 主 要 是 因为 大 多 数 情 况 下 ，R 需要 
将 数据 全 部 读 入 内 存 ， 然 后 将 数据 作为 一 个 整体 对 象 〈 例 如 大 矩阵 ) 来 处 理 。 如 果 处 理 大 
文件 (例如 测序 得 到 的 fastq 文件 )， 经 常会 遇 到 “cannot allocate vector of size” 或 者 “无 法 
分 配 大 小 为 .… 的 矢量 ”这 样 的 错误 提示 。 升 级 硬件 〈 加 大 内 存 或 升级 到 64 位 系统 ) 和 改进 
算法 (例如 分 割 数据 后 处 理 ) 是 解决 内 存 问题 的 永恒 办 法 ， 本 书 不 做 讨论 。 从 管理 的 角度 ， 
可 以 从 以 下 不 同 思路 出 发 来 解决 内 存 不 够 的 问题 。 最 简单 的 方法 就 是 查看 内 存 使 用 情况 ， 
调整 内 存 分 配 上 限 ( 例 C-1)。 当 前 ，R 主 程序 安装 时 〈 特 别 是 Windows 系统 ) 一 般 都 是 自 
动 安装 ， 操 作 系统 分 配给 R 的 内 存 以 及 上 限 都 是 默认 设置 。 而 且 R 为 变量 分 配 内 存 时 ， 会 
向 操作 系统 申请 连续 的 内 存 空间 ， 一 有 旦 无 法 满足 ， 就 会 出 现 错误 提示 。 从 例 С-1 中 可 以 看 
到 ， 当 前 操作 系统 分 配给 R 主 程序 25.62 Mb AF, R 已 使 用 23.05 Mb 〈 注 意 刚 开始 时 已 使 
用 内 存 和 已 分 配 内 存 是 同步 增加 的 )， 而 操作 系统 最 多 能 分 配给 R 的 内 存 总 量 是 1000 Mb. 
在 Windows 操作 系统 中 , 可 以 直接 在 R 中 运行 memory.limit (2000) 将 内 存 上 限 提高 到 2000 
Mb， 或 者 执行 命令 行 “Rgui --max-mem-size 2Gb”. 


例 0-1: 

# 查看 操作 系统 已 分 配给 R 的 内 存 总 量 。 
memory.size (Т); 

[1] 25.62 

# 查看 R 已 使 用 的 内 存 总 量 。 

memory.size (Е); 

[1] 23.05 

# 查看 操作 系统 分 配给 R 内 存 总 量 的 上 限 。 
memory.limit (); 

[1] 1000 

# 查看 操作 系统 分 配给 R 内 存 总 量 的 上 限 提高 到 2000Mb。 
memory.limit (2000); 


内 存 的 分 配 不 能 超过 硬件 的 限制 ， 因 此 用 提高 上 限 的 方法 来 解决 内 存 不 足 的 适用 范围 


1 222 R 语言 与 Bioconductor 生物 信息 学 应 用 


很 小 。 更 多 的 是 依靠 及 时 查看 R 中 各 个 对 象 的 内 存 占 用 情况 〈 例 C-2)， 对 占用 过 多 内 存 或 
者 暂时 不 用 的 对 象 进行 处 理 。 最 简单 的 做 法 就 是 通过 15 函数 来 查看 当前 内 存 中 所 有 的 对 象 ， 
并 通过 object.size 函数 来 查看 每 个 对 象 占用 内 存 的 大 小 。 从 例 C-2 中 可 以 看 到 ， 通 过 
storage.mode 函数 改变 对 象 a 的 存储 模式 ， 可 以 大 大 节省 存储 空间 。 


例 C-2: 

# 生成 一 个 数组 类 型 的 变量 a。 

а = array(1:12,dim=c(3,4)); 

# 给 第 一 个 元 素 赋值 ， 变 量 a 的 存储 模式 变 为 “double” 类 型 。 

а[1,1]=0.1; 

# 查看 a 的 存储 模式 。 

storage.mode(a); 

[1] "double" 

# 查看 a 的 存储 模式 。 

object.size(a); 

storage.mode(a) <- "integer"; 

# 再 次 查看 a 的 存储 模式 。 

object.size(a); 

为 了 便于 查看 当前 内 存 中 所 有 对 象 占用 内 存 的 情况 ，RStudio 在 其 用 户 界面 的 右上 部 分 
提供 了 一 个 Workspace 标签 ， 用 于 列表 显示 当前 内 存 中 的 所 有 对 象 。 更 常见 的 情况 是 ， 调 用 
下 列 2 个 函数 〈 原 作者 是 Рик Eddelbuettel) 来 查看 : ls.objects 函数 和 top 函数 ， 后 者 只 显 
В n 个 最 大 对 象 的 占用 内 存 情况 ， 在 实际 中 ， 使 用 更 为 广泛 。 


# 显示 当前 内 存 中 的 所 有 对 象 占 用 内 存 情况 。 
ls.objects <- function (pos = 1, pattern, order.by, 
decreasing=FALSE, head=FALSE, п=5) { 
napply <- function(names, fn) sapply(names, function(X) 
fn(get(x, pos = pos))) 
names <- ls(pos = pos, pattern = pattern) 
obj.class <- napply(names, function(x) аѕ.сһагасіег(сІаѕѕ(х))[1]) 
obj.mode <- napply(names, mode) 
obj.type <- ifelse(is.na(obj.class), obj.mode, obj.class) 
obj.size <- napply(names, object.size) 
obj.dim <- t(napply(names, function(x) 
as.numeric(dim(x))[1:2])) 
vec <- is.na(obj.dim)[, 1] & (obj.type != "function") 
obj.dim[vec, 1] <- napply(names, length)[vec] 
out <- data.frame(obj.type, obj.size, obj.dim) 
names(out) <- с("Туре", "Size", "Rows", "Columns") 
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if (I!missing(order.by)) 
ош <- out[order(out[[order.by]], decreasing=decreasing), ] 
if (head) 
out <- head(out, n) 
out 
} 
# 显示 当前 内 存 中 的 前 10 个 最 大 对 象 占用 内 存 情况 
top <- function(..., п=10) { 
ls.objects(..., order.by="Size", decreasing=TRUE, head=TRUE, n=n) 
} 


在 所 有 内 存 管理 的 方法 中 , 最 有 效 的 就 是 及 时 调用 rm 函数 删除 计算 过 程 中 生成 的 中 间 
对 象 ， 对 于 某 些 可 能 后 面 会 用 到 的 信息 ， 可 以 存 入 硬盘 文件 中 。 调 用 rm 函数 删除 对 象 时 ， 
只 会 删除 变量 的 引用 ， 并 不 会 立即 清除 占用 的 内 存 空间 ， 可 以 用 过 Windows 的 任务 管理 器 
看 到 R 进程 占用 的 内 存 并 没有 减少 。 失去 引用 的 对 象 就 成 了 内 存 中 的 垃圾 , R 采用 了 与 java 
类 似 的 垃圾 回收 机 制 ， 系 统 会 定期 自动 发 现 垃 圾 ， 集 中 清理 ， 并 回收 不 使 用 的 内 存 。 如 果 
需要 立即 清理 内 存 ， 可 以 使 用 gc 函数 ， 这 对 于 立即 需要 大 量 内 存 的 情况 非常 必要 。 随 着 R 
中 的 垃圾 被 清理 ， 已 使 用 内 存 会 减少 ， 但 已 分 配给 尺 的 内 存 不 会 改变 。 

中 间 变 量 的 删除 要 特别 注意 一 些 〈 内 存 占用 的 ) 可 变 变 量 。 例 如 R 语言 中 和 矩阵 的 维度 
可 以 不 是 固定 值 ， 这 为 编程 带 来 了 极 大 的 灵活 性 。 通 过 在 循环 中 调用 cbind 或 rbind 函数 ， 
可 以 为 某 个 矩阵 不 断 增 加 列 或 行 。 由 于 R 变量 需要 申请 连续 的 内 存 ， 因 此 和 矩阵 每 增长 一 次 ， 
即使 赋 给 同名 的 变量 ， 都 需要 新 开辟 一 块 更 大 的 空间 。 假 设 初始 矩阵 需要 的 内 存 空间 为 
100K, 增加 一 行 后 应 该 增长 到 为 101K, 一 直 增 长 到 120K, 那么 R 将 会 分 别 开 辟 100K、101K， 
一 直到 120K 的 连续 堆 内 存 。 由 于 是 同名 变量 ,循环 结束 前 无 法 删除 ， 导 致 内 存 使 用 极 具 增 
长 。 因 此 ， 对 于 可 变 变 量 的 内 存 管 理 也 要 格外 注意 。 


二 、 如 何 获得 帮助 


R 拥有 一 套 完善 而 便利 的 帮助 系统 ， 查 询 帮 助 系统 有 几 种 方案 。 

(1) 对 于 已 知名 称 的 函数 ， 欲 了 解 该 函数 《例如 查询 函数 solve) 的 详细 使 用 方法 ， 可 
以 用 “?solve” 或 者 “help(solve)” 来 获取 函数 solve 所 属 的 包 、 有 用途、 用法、 参数 说 明 、 返 
回 值 、 参考 文献 、 相 关 函 数 以 及 范例 。 对 于 由 特殊 字符 或 某 些 关键 词 (例如 if) 指定 的 功能 ， 
这 些 参数 必须 用 单 引 号 或 双 引 号 括 起 来 ， 例 如 :“?+'” 或 “help(if) ” 注意， 使 用 help 
函数 或 者 “?” 得 到 帮助 信息 的 前 提 是 该 函数 所 在 的 扩展 包 已 经 加 载 。 

(2) 对 于 未 知名 称 的 函数 ， 如 知道 相关 的 关键 词 〈 例 如 方差 分 析 的 关键 词 'analysis of 
variance')， 可 以 使 用 “??'analysis of variance'” 或 者 “help.search (analysis of variance')” Ж 
找到 与 搜索 关键 词 相 关 的 所 有 函数 ， 然 后 进一步 人 工 查找 目的 函数 。 注 意 使 用 help.search 
函数 或 者 “??” 得 到 帮助 信息 的 前 提 也 是 该 关键 词 相关 的 函数 所 在 的 扩展 包 已 经 加 载 。 

G) 如 果 没 有 任何 线索 ， 或 者 想 更 大 范围 查找 所 需 函 数 ， 可 以 在 有 互联 网 联接 的 前 提 
下 调用 help.start 函数 进入 R 官网 的 文档 中 心 进一步 浏览 ; 或 者 调用 RSiteSearch 函数 ， 以 某 
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个 关键 词 在 官网 搜索 相关 函数 或 功能 。 

互动 交流 是 快速 高 效 的 学 习 方 法 ， 互 联网 上 有 大 量 的 R 和 Bioconductor 邮件 列表 和 讨 
论 群 ， 其 中 最 大 最 主要 一 个 就 是 bioconductor@r-project.org， 它 的 特点 是 全 部 Bioconductor 
的 开发 者 亲自 到 一 线 给 广大 用 户 答疑 ， 回 答 非 常 及 时 和 准确 。 由 于 此 群 人 数 众多 ， 而 且 开 
发 者 时 间 有 限 ， 请 国内 的 研究 人 员 特别 是 初学 者 ) 先 利用 国内 资源 寻求 答案 ， 避 免 一 下 
子 大 量 中 国 初学 者 涌 入 ， 给 开发 者 留 下 不 好 的 印象 。 此 外 ,“ 生 物 信息 学 天 空 ” 还 绑 定 了 一 
МЕЛ qq 群 ， 方 便 国内 外 华人 生物 信息 领域 的 研究 人 员 用 母语 交流 ， 本 群 中 很 多 人 都 在 使 
用 及 语言 处 理 生物 信息 数据 。 

Bioconductor 的 官方 网 站 提供 了 大 量 丰 富 的 说 明文 档 〈 见 4.1.3)， 其 最 有 特点 的 是 一 种 
叫做 Vignettes 的 大 规模 综合 说 明 性 文档 。 读 者 如 果 想 了 解 一 个 具体 Bioconductor 的 包 的 使 
用 方法 和 具体 的 操作 流程 ， 可 以 直接 下 载 并 阅读 其 附带 的 Vignettes 文档 。Vignettes 的 中 文 
大 意 是 小 插图 、 小 品 文 ， 它 将 软件 包 中 的 函数 有 机 地 结合 起 来 ， 示 例 性 地 提供 该 软件 包 最 
典型 的 使 用 场景 和 代码 。 它 还 有 可 能 提供 该 软件 包 与 R/Bioconductor 中 其 他 软件 包 的 关系 ， 
并 给 出 结合 多 软件 包 使 用 的 范例 。Vignettes 可 以 图 文 并 成 ， 所 以 它 比 之 一 般 的 帮助 文档 更 
具有 可 读 性 。 在 Bioconductor 中 ，Vignettes 是 每 个 包 必 须 包 含 的 文档 (在 R 中 不 要 求 )， 可 
见 其 在 Bioconductor 软件 包 中 的 重要 性 。 如 果 我 们 想 了 解 motifStack 〈 必 须 是 已 安装 的 包 ) 
这 个 包 可 以 做 什么 ， 有 哪些 作者 强调 的 功能 ， 我 们 可 以 使 用 vignette〈"motifStack" ) 来 获得 
其 综合 说 明文 档 。 
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A. В == a == o а т 
Common duplicate reads might provide chies to фе source of over- 
represented sequences. Some of these reads are filtered by the alignment == салшы = 
algorithms; other duplicate reads might point to sample preparation issues. 
ShortRead:::.freg5equencesiga, "тевза") ' 
segoence coust lane 
CICCACACTITGCATGCATGTCCACCCICAGCTACAAAGCTICCCTCACITTC 1220 
CTTAAICTIGICCAIGAGICCCIICIICICATGICCTICCICICCTACATI 1124 
CTCAAICTCATCACCAAAACGECCGCCAGIGATIICCGICISIAGATIACC 1019 в4 4 上 


1 
1 
СТОТІСОСТАССАТЗАІТСАССОССАВССАФСТІСІССТІЗАТСТІСІССАС 1013 1 
АЗААЛААСТІАЗТАСССАТСОСССТІАІСІСССАТСАААСІЗАТАСАТІС 989 1 
ССССЗААСАСАССТСТІАССАІСАСАССТАСТАСТАТААТААААСССАССА 900 1 
ФІССАТІІСІСААСОГІССАІЗАСІІССАЗІІССАССТІБАСССССАТБАБ 865 1 
СТОБТААСТІЗІССТІААІСТІСІССАІЗАСІСССТІСТІСІСАІЗІССІІ 857 1 
ВСБСАСІСССАЗАССТІССАСАСАСАСТІІТААСТІТАСССАТЂІСТІССОІ 745 1 
АТАТАТІСССАФСІФСІСФІАІСІІІССААТАСАТАССІССІІбАЗСААСА 725 1 
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